top of page

RAFT 是什麼?結合 RAG 與 Fine-Tuning 的新技術

  • 作家相片: 奇軒 李
    奇軒 李
  • 6月3日
  • 讀畢需時 4 分鐘

介紹raft

在大型語言模型(LLM)快速發展的今天,「如何讓 AI 懂我家的資料」成為許多企業、開發者與研究人員關心的核心問題。當我們想讓 AI 回答來自企業內部文件、醫學文獻或 API 技術手冊的問題,最常見的方法是透過:

  1. 微調(Fine-tuning) :讓模型透過 QA 標訓資料學習。

  2. 檢索增強生成(RAG, Retrieval-Augmented Generation) :於推論階段將相關文件加入提示中。

但這兩者之間始終存在一個 gap:微調模型不擅長處理「外部檢索的文件」,而 RAG 模型雖有文件卻「未曾學過怎麼讀這些文件」,造成難以分辨哪些有用、哪些是干擾項目。這正是 2024 年 UC Berkeley 團隊發表於 COLM 大會的論文《RAFT: Adapting Language Model to Domain Specific RAG》 所要解決的問題。他們提出的解方名為 RAFT(Retrieval-Augmented Fine-Tuning) ,是一種全新的訓練策略,成功結合 RAG 與 Fine-tuning 的優點。





文章導覽:



一、為什麼 RAG 需要再進化?

在目前的 LLM 應用中,我們通常使用以下兩種方式來處理專屬資料:

(一)微調(Fine-tuning)

• 模型在訓練期間學習特定領域的 QA 。

• 優點:能掌握領域術語、語氣風格。

• 缺點:測試時若加上外部文件,模型未必懂得怎麼用。

(二)檢索增強生成(RAG)

• 測試階段使用檢索器,將相關文件加入 prompt。

• 優點:無需重訓模型,靈活性高。

• 缺點:模型沒學過如何有效處理這些「額外資訊」。

這兩種方法各有優點,卻也都無法完美解決一個問題:如何讓 LLM 在特定領域內真正學會「查資料、讀資料、用資料」。這時,新的解決方案 - RAFT 出現了。


二、 RAFT 是什麼?

RAFT 的核心目標是讓 LLM 在「特定領域」中發揮最佳表現。不只擁有特定領域知識,也能擁有特定領域最新資訊。RAFT 的設計原則如下:

  1. 訓練資料中加入檢索文件:不僅包含正確來源(golden document),還刻意加入干擾文件(distractors),訓練模型辨識什麼是有用資訊。

  2. 推理方式採用 Chain-of-Thought(CoT) :鼓勵模型產出完整的邏輯推理過程,並用特殊標記來引用原始文本。

  3. 有意保留部分樣本不含正解文件:實驗證明,不是所有訓練樣本都應包含正確文檔,有時模型需要在「全是錯誤資訊」中學會思考與辨識。


三、 RAFT、RAG、Fine-Tuning 3 個差在哪?

這裡我們以「開書考」作為比喻,輕鬆了解 3 者的差別:

方法 

比喻 

問題 

傳統微調 

閉卷考試的準備:只靠記憶作答 

缺乏應對新文件能力 

傳統 RAG 

開卷考試但沒讀書:有資料但不熟悉 

模型無法有效理解文件內容 

RAFT 

有策略地準備開卷考試:學習如何閱讀與引用資料 

✅ 結合理解與應用能力 


四、 RAFT 成效如何? 它比其他兩種方法都更強

(一)RAFT v.s RAG v.s Fine-Tuning

在實驗部分,RAFT 在多個資料集上的表現都相當亮眼,特別是在像 HotpotQA 和HuggingFace API 文件這類需要跨越多篇文件、進行多步推理的任務中,成果尤為突出。相比之下,即便是 GPT-3.5 搭配 RAG,也無法全面壓過 RAFT 的成績。例如在 HotpotQA 的測試中,RAFT 的準確率達到 35.28%,幾乎是傳統微調(DSF + RAG)做法的 8 倍之多。而在 HuggingFace API 文件任務中,RAFT 更是達到 74% 的準確率,遠高於 GPT-3.5 + RAG 的 29.08%以及 DSF + RAG 的 42.59%。

RAFT  v.s  RAG  v.s  Fine-Tuning 表現

(二)Chain-of-Thought 對模型表現的影響

更有趣的是,論文中也探討了「Chain-of-Thought(思路鏈)」對模型表現的影響。實驗發現,加入這類逐步推理的解釋過程後,模型在多個任務上的表現平均可再提升 10~15%。這顯示出:不只是答案正確與否,「讓模型學會思考的過程」同樣是提升準確率的關鍵。

Chain-of-Thought 對模型表現的影響

五、RAFT 訓練方法

在論文中有提及,在訓練時不一定每次都要給正解。該論文研究了訓練資料中「包含正解文件的比例 P%」對模型表現的影響。實驗顯示:

• 並非每一筆訓練樣本都需要提供正確文件;

• 將約 20%-40% 樣本設計為「只有干擾文件」,反而讓模型學會在錯誤資訊中自我審查。

這個策略與「讓學生做難題、學會辨識陷阱」如出一轍,堪稱實用且有創意的設計。

RAFT 訓練方法

六、RAFT 模型更能抵抗 Top-K 錯誤文件

在實務應用中,RAG 系統往往會用 top-k 的文件來提供上下文,但檢索系統不可能每次都精準命中正確答案。RAFT 訓練出的模型,在這類「混有無用資訊」的場景中也能保持穩定表現,顯示它有更高的 魯棒性與抗干擾能力。


七、總結:RAFT 是企業與 AI 工程師值得關注的新方向

RAFT 不只是學術上的創新,更為企業帶來實用的啟發:

• 若你正在建構一個需要回答內部知識的問答系統;

• 或希望模型能在雜訊中篩選出可靠答案;

• 甚至希望在 Fine-tuning 時就讓模型學會 RAG 的操作邏輯

Comments


​文章分類
熱門標籤
bottom of page