搜尋

RAFT 是什麼？結合 RAG 與 Fine-Tuning 的新技術

奇軒李
6月3日
讀畢需時 4 分鐘

已更新：6月30日

在大型語言模型（LLM）快速發展的今天，「如何讓 AI 懂我家的資料」成為許多企業、開發者與研究人員關心的核心問題。當我們想讓 AI 回答來自企業內部文件、醫學文獻或 API 技術手冊的問題，最常見的方法是透過：

微調（Fine-tuning）：讓模型透過 QA 標訓資料學習。
檢索增強生成（RAG, Retrieval-Augmented Generation）：於推論階段將相關文件加入提示中。

但這兩者之間始終存在一個 gap：微調模型不擅長處理「外部檢索的文件」，而 RAG 模型雖有文件卻「未曾學過怎麼讀這些文件」，造成難以分辨哪些有用、哪些是干擾項目。這正是 2024 年 UC Berkeley 團隊發表於 COLM 大會的論文《RAFT: Adapting Language Model to Domain Specific RAG》 所要解決的問題。他們提出的解方名為 RAFT（Retrieval-Augmented Fine-Tuning），是一種全新的訓練策略，成功結合 RAG 與 Fine-tuning 的優點。

文章導覽：

為什麼 RAG 需要再進化？
RAFT 是什麼？
RAFT、RAG、Fine-Tuning 3 個差在哪？
RAFT 成效如何？它比其他兩種方法都更強
RAFT 訓練方法
模型更能抵抗 Top-K 錯誤文件
總結：RAFT 是企業與 AI 工程師值得關注的新方向

一、為什麼 RAG 需要再進化？

在目前的 LLM 應用中，我們通常使用以下兩種方式來處理專屬資料：

（一）微調（Fine-tuning）

• 模型在訓練期間學習特定領域的 QA 。

• 優點：能掌握領域術語、語氣風格。

• 缺點：測試時若加上外部文件，模型未必懂得怎麼用。

（二）檢索增強生成（RAG）

• 測試階段使用檢索器，將相關文件加入 prompt。

• 優點：無需重訓模型，靈活性高。

• 缺點：模型沒學過如何有效處理這些「額外資訊」。

< 延伸學習> RAG跟Fine-Tuning到底差在哪？如何選擇最適合的模式

這兩種方法各有優點，卻也都無法完美解決一個問題：如何讓 LLM 在特定領域內真正學會「查資料、讀資料、用資料」。這時，新的解決方案 - RAFT 出現了。

二、 RAFT 是什麼？

RAFT 的核心目標是讓 LLM 在「特定領域」中發揮最佳表現。不只擁有特定領域知識，也能擁有特定領域最新資訊。RAFT 的設計原則如下：

先透過 RAG 系統進行問答生成：
用 RAG 回答企業內部常見問題，並蒐集真實用戶對話或 QA 配對。
再利用這些問答資料進行微調（Fine-Tuning）：
將生成的資料當作訓練集，讓模型學會回答方式與語境。
最終模型具備雙重能力：
基礎語感來自微調，知識補充靠 RAG 檢索。

簡單說，RAFT 讓 LLM 不只「找到答案」，還「學會怎麼說」。

三、 RAFT、RAG、Fine-Tuning 3 個差在哪？

這裡我們以「開書考」作為比喻，輕鬆了解 3 者的差別：

方法	比喻	問題
傳統微調	閉卷考試的準備：只靠記憶作答	缺乏應對新文件能力
傳統 RAG	開卷考試但沒讀書：有資料但不熟悉	模型無法有效理解文件內容
RAFT	有策略地準備開卷考試：學習如何閱讀與引用資料	✅ 結合理解與應用能力

四、 RAFT 成效如何？它比其他兩種方法都更強

（一）RAFT v.s RAG v.s Fine-Tuning

在實驗部分，RAFT 在多個資料集上的表現都相當亮眼，特別是在像 HotpotQA 和HuggingFace API 文件這類需要跨越多篇文件、進行多步推理的任務中，成果尤為突出。相比之下，即便是 GPT-3.5 搭配 RAG，也無法全面壓過 RAFT 的成績。例如在 HotpotQA 的測試中，RAFT 的準確率達到 35.28%，幾乎是傳統微調（DSF + RAG）做法的 8 倍之多。而在 HuggingFace API 文件任務中，RAFT 更是達到 74% 的準確率，遠高於 GPT-3.5 + RAG 的 29.08%以及 DSF + RAG 的 42.59%。

（二）Chain-of-Thought 對模型表現的影響

更有趣的是，論文中也探討了「Chain-of-Thought（思路鏈）」對模型表現的影響。實驗發現，加入這類逐步推理的解釋過程後，模型在多個任務上的表現平均可再提升 10~15%。這顯示出：不只是答案正確與否，「讓模型學會思考的過程」同樣是提升準確率的關鍵。

五、RAFT 訓練方法

在論文中有提及，在訓練時不一定每次都要給正解。該論文研究了訓練資料中「包含正解文件的比例 P%」對模型表現的影響。實驗顯示：

• 並非每一筆訓練樣本都需要提供正確文件；

• 將約 20%-40% 樣本設計為「只有干擾文件」，反而讓模型學會在錯誤資訊中自我審查。

這個策略與「讓學生做難題、學會辨識陷阱」如出一轍，堪稱實用且有創意的設計。

六、RAFT 模型更能抵抗 Top-K 錯誤文件

在實務應用中，RAG 系統往往會用 top-k 的文件來提供上下文，但檢索系統不可能每次都精準命中正確答案。RAFT 訓練出的模型，在這類「混有無用資訊」的場景中也能保持穩定表現，顯示它有更高的魯棒性與抗干擾能力。

七、總結：RAFT 是企業與 AI 工程師值得關注的新方向

RAFT 不只是學術上的創新，更為企業帶來實用的啟發：

• 若你正在建構一個需要回答內部知識的問答系統；

• 或希望模型能在雜訊中篩選出可靠答案；

• 甚至希望在 Fine-tuning 時就讓模型學會 RAG 的操作邏輯

那麼你可以讀一讀這篇論文：《RAFT: Adapting Language Model to Domain Specific RAG 》

RAFT 是什麼？結合 RAG 與 Fine-Tuning 的新技術