【環球時快訊】0門檻克隆ChatGPT，30分鐘訓完，60億參數性能堪比GPT-3.5

來源：36kr時間：2023-03-27 16:01:23

破解「CloseAI」，ChatGPT克隆羊問世！0門檻實現「自研」，從此大語言模型不再只是少數大公司的「金手指」。

此前，OpenAI不Open的事件，已經引發了坊間的諸多爭議。

(資料圖片)

光放出基準和測試結果，不提供訓練數據、成本、方法，是真的要「贏家通吃」了。

眼看大語言模型似乎要被巨頭公司壟斷，如今忽然殺出一個初創公司，給了OpenAI一槍——用60億參數的「Dolly」實現了和ChatGPT相似的能力。

沒錯，我們現在只需要準備一些高質量的訓練數據，再隨便拿一個開源的大語言模型，訓練30分鐘后，就能得到一個ChatGPT「平替」！

對此，Databricks自豪地表示，Dolly的發布，就是自己在人工智能技術民主化道路上打響的第一彈。

60億參數堪比ChatGPT，30分鐘就訓好

由于ChatGPT需要消耗大量的數據和算力資源（利用數萬億個單詞訓練，消耗大量GPU），所以這類大語言模型注定只能被少量巨頭所掌握。

和「CloseAI」相反，Meta在今年3月向學術界發布了一組高質量（但不是指令跟隨的）語言模型LLaMA，每個模型的訓練時間超過了80,000個GPU小時。

隨后，斯坦福大學基于LLaMA構建了Alpaca，但不同之處在于，它利用一個包含50,000個問題和答案的小數據集進行了微調。令人驚訝的是，這使得Alpaca具有了類似于ChatGPT的交互性。

而Dolly正是受到了Alpaca的啟發。

更有趣的是，擁有60億參數的Dolly并沒有利用現在最新的模型，而是選擇了一個2021年發布的開源模型——GPT-J。

由于Dolly本身是一個模型的「克隆」，所以團隊最終決定將其命名為「多利」——有史以來第一個被克隆的動物。

與當前的大型語言模型（如GPT-3）相比，Dolly允許用戶使用更小、更專業的模型，「復刻」ChatGPT的能力。

畢竟對于那些細分用戶來說，能夠利用針對本行業進行過精調的模型，可以大大增加性能和準確性。

盡管Databricks與OpenAI并無直接競爭關系，但它似乎想通過證明構建類似ChatGPT這樣的服務并非看起來那么困難，來搶占OpenAI的風頭。

尤其是，OpenAI采取了「規模越大越好」的方法來開發語言模型，并對其工作越來越保密。

Databricks除了將Dolly作為開源軟件發布外，還強調Dolly只有60億個參數（在訓練過程中微調的語言模型部分），而OpenAI的GPT-3模型有1750億個參數。（OpenAI并未透露GPT-4的參數數量）。

讓老模型，涅槃重生

根據InstructGPT論文中描述的指令跟隨能力，對Dolly進行評估后發現，它在很多能力上的表現和ChatGPT十分類似，包括文本生成、頭腦風暴和開放式問答。

在這些例子中，值得注意的不是生成文本的質量，而是在一個小型的高質量數據集上，微調一個舊的開源模型所帶來的指令跟隨能力的巨大改進。

內容生成

比如，寫一條Databricks官宣大規模語言模型Dolly發布的推特。

可以看到，原始的60億參數模型（GPT-J）所生成的內容驢唇不對馬嘴，而Dolly則給出了一個完全可用的推文——

不僅內容符合要求，而且還貼心地加上了標簽，以及提醒你記得加入發布的鏈接。

對于這一題，ChatGPT給出的答案也很符合期待，相比于Dolly，ChatGPT給出的推文包含了更多評述性詞句，并且標簽也更加精準具體，但整體差距不大。

當要寫一條出售Nikon D-750相機的廣告時，可以看到，GPT-J所生成的內容基本就在胡編亂造，像是在寫小說一樣杜撰購買和出售相機的劇情……

而Dolly則根據Nikon D-750相機的特點及優勢，給出了一則吸引人的相機轉賣廣告語，但遺憾的是像素參數不對。

ChatGPT在這一題上也是圓滿完成任務，廣告語中突出該款相機的優勢，文末仍然貼心地加上了標簽。

最后一題：給Edgar Allan Poe（愛倫·坡）寫一封情書。

對此，古早的GPT-J直接拒絕回答，究其原因竟然是——愛倫·坡已經去世了，你不能給死人寫情書。

而Dolly則成功地完成了任務，效果對比起來堪稱「涅槃」。

而這種「創造性」問題，顯然是ChatGPT的強項，它洋洋灑灑地寫了300多個字。

開放問答

在事實性問題的問答測試上，團隊選擇了下面這個：「向我解釋一下核裂變和核聚變之間的區別。」

先不管對錯，GPT-J全篇都是在講太陽如何如何，雖然提到了「聚變」這個詞，但完全無視了「裂變」。

而Dolly第一句就直接點題——核裂變和核聚變的區別在于釋放能量的方式，隨后簡單解釋了他們的不同。

相比之下，ChatGPT給出的回答明顯要更加翔實。

頭腦風暴

當讓它們頭腦風暴，給出應該閱讀的五本科幻小說的名單，GPT-J則只是在喃喃自語，像是沉浸在了拖延閱讀而產生的愧疚情緒中，完全回避了這個提問。

Dolly則一如既往的表現穩定，按照指令給出了5本科幻小說的書名及其作者。

ChatGPT對于該問題給出了更加豐富的回答，不僅包括書名和作者，還對每一本書的內容、類型作了簡要評述和介紹。

你要Close，我就Open

對于很多公司而言，寧愿自己建立一個不那么強的模型，也不愿將數據發送給那些只提供API的大語言模型供應商。

其中一個重要原因便是，這些問題和數據集是公司最敏感和專有的知識產權，直接將其交給第三方顯然是不靠譜的。

此外，公司自身可能在模型質量、成本和期望行為方面有不同的權衡，一種可定制化的語言模型更加符合需求。

現在，Dolly的發布給了他們希望——即便是一個「過時」的開源大型語言模型 (LLM)，也能通過30分的訓練，賦予它神奇的類似ChatGPT的指令跟隨能力。

不難想象，大語言模型或許很快就不是AI巨頭公司獨占的玩法了！

正如公司CEO Ali Ghodsi所說，「我們的信念是，讓全世界的每個組織都能利用這些技術。」

參考資料：

https://www.databricks.com/blog/2023/03/24/hello-dolly-democratizing-magic-chatgpt-open-models.html

https://venturebeat.com/ai/databricks-debuts-chatgpt-like-dolly-a-clone-any-enterprise-can-own/

關鍵詞：

責任編輯：FD31

上一篇：馬斯克為何沒做出ChatGPT？揭秘OpenAI創始人的權力斗爭

下一篇：最后一頁

伊人久久大香线蕉avapp下载-97久久伊人精品影院-伊人三区-亚洲伊人久久大香线蕉综合图片-中文字幕美日韩在线高清-中文字幕伦理聚合第一页