前天到台北參加台大「生成式AI技術 – ChatGPT 與應用論壇」,演講中有提到希望台灣能訓練出自己的大型語言模型,這樣更能做出適配台灣的環境的模型。當時隱約有股違和感,覺得哪裡怪怪的卻又說不太上來,導致後續 QA 時也不太好發問,畢竟連想問什麼問題都說不清楚,只好帶著那股揮之不散的違和感回到新竹。
直到昨天我整理演講中的筆記,才發現違和感來自前陣子讀過一篇文章「Google “We Have No Moat, And Neither Does OpenAI”」(Google:我們沒有護城河,OpenAI 也沒有)。這篇文章據傳是 Google 的員工發出的,概意在說:
- 訓練超大型語言模型已經失去優勢
- 各個開源社群能藉由 ChatGPT 作為老師來評分結果,僅需花費數百美元、數天的訓練,就能訓練出與 ChatGPT 相似成效的模型(例如:Alpaca、Guanaco、Vicuna、Koala等等)。對比之下 ChatGPT 光是訓練成本就至少花了千萬美元、幾個月的時間來訓練。
- 應該擁抱開源
- 這讓多數人不會花錢來使用大企業花千萬美元縝密訓練的大模型,尤其是這些企業的大模型品質又不見得比免費好時更不會掏錢。就像 Meta 不小心洩露他的們大語言模型 LLaMA,結果現在開源社群都以 LLama 為架構為底,讓 Meta 可以輕易整合這些成果。
- 微調(Fine-tune)小模型利於快速迭代
- 相較從頭訓練大模型,每次訓練都要拋棄先前預訓練的效果,小模型使用更迅速成本也更低,透過多次微調、迭代也能持續改進,更何況有 LoRA 這種能大大加速微調模型的技術了。
為什麼還要訓練台灣自己的大語言模型呢?如果只是為了符合繁體中文的使用情境,大型語言模型已會多種語言,且語意理解使得模型可以了解到除了語言背後的概念,讓文字變成呈現內容的載體,例如: one plus one = 1+1 = 一加一,概念相通只是呈現的語言不同。
都通用了還有從頭訓練大型模型的必要性嗎?訓練大型語言模型好比訓練出一個基礎素質高的大學生,會再針對不同場景需求再讓「大學生」針對專業去加強,那有什麼理由要將大學生砍掉重練?
我自己的結論:基於成本考量,沒有從頭訓練大型語言模型的必要性。重頭訓練成本高昂,而且成效不見得比 Fine-tune 好。要是還能倒回去想像講者們請教,是否有什麼事非重頭訓練能帶來的好處?而 Fine-tune 做不到的?
==================================================
參考資料:
- Google “We Have No Moat, And Neither Does OpenAI”
- Google內部文件披露:在開源面前,OpenAI與Google都是難兄難弟
- 台大「生成式AI技術 – ChatGPT 與應用論壇」