人工智能 (AI) 在改變我們生活、工作和與技術互動的方式方面取得了巨大的進步。最近,取得重大進展的領域是大型語言模型 (LLM) 的開發,例如GPT-3、ChatGPT和GPT-4。這些模型能夠準確的執行語言翻譯、文本摘要和問答等任務。
雖然很難忽視 LLM 不斷增加的模型規模,但同樣重要的是要認識到,他們的成功很大程度上歸功于用于訓練他們的大量高質量數據。
(資料圖)
在本文中,我們將從以數據為中心的 AI 角度概述 LLM 的最新進展。我們將通過以數據為中心的 AI 視角研究 GPT 模型,這是數據科學界中一個不斷發展的概念。我們通過討論三個以數據為中心的 AI 目標:訓練數據開發、推理數據開發和數據維護,來揭示 GPT 模型背后以數據為中心的 AI 概念。
LLM 是一種自然語言處理模型,經過訓練可以在上下文中推斷單詞。例如,LLM 最基本的功能是在給定上下文的情況下預測缺失的標記。為此,LLM 接受了訓練,可以從海量數據中預測每個候選單詞的概率。下圖是在上下文中使用 LLM 預測丟失標記的概率的說明性示例。
GPT模型是指OpenAI創建的一系列LLM,如GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4等。與其他 LLM 一樣,GPT 模型的架構主要基于Transformers,它使用文本和位置嵌入作為輸入,并使用注意力層來模擬令牌的關系。
GPT-1 模型架構
后來的 GPT 模型使用與 GPT-1 類似的架構,除了使用更多模型參數和更多層、更大的上下文長度、隱藏層大小等。
以數據為中心的 AI是一種新興的思考如何構建 AI 系統的新方法。以數據為中心的人工智能是系統地設計用于構建人工智能系統的數據的學科。
過去,我們主要專注于在數據基本不變的情況下創建更好的模型(以模型為中心的 AI)。然而,這種方法在現實世界中可能會導致問題,因為它沒有考慮數據中可能出現的不同問題,例如標簽不準確、重復和偏差。因此,“過度擬合”數據集不一定會導致更好的模型行為。
相比之下,以數據為中心的人工智能專注于提高用于構建人工智能系統的數據的質量和數量。這意味著注意力在數據本身,模型相對更固定。使用以數據為中心的方法開發人工智能系統在現實場景中具有更大的潛力,因為用于訓練的數據最終決定了模型的最大能力。
需要注意的是,“以數據為中心”與“數據驅動”有著根本的區別,后者只強調用數據來指導人工智能的發展,通常仍以開發模型而不是數據為中心。
以數據為中心的人工智能與以模型為中心的人工智能之間的比較
以數據為中心的 AI 框架包含三個目標:
訓練數據開發就是收集和生產豐富、高質量的數據,以支持機器學習模型的訓練。
推理數據開發是為了創建新的評估集,這些評估集可以提供對模型的更細粒度的洞察力,或者通過數據輸入觸發模型的特定功能。
數據維護是為了在動態環境下保證數據的質量和可靠性。數據維護至關重要,因為現實世界中的數據不是一次性創建的,而是需要持續維護。
以數據為中心的 AI 框架
幾個月前,Yann LeCun 在推特上表示 ChatGPT 并不是什么新鮮事。事實上,ChatGPT 和 GPT-4 中使用的所有技術(變壓器、從人類反饋中強化學習等)一點都不新鮮。然而,他們確實取得了以前模型無法實現的結果。那么,他們成功的原因什么?
訓練數據開發。通過更好的數據收集、數據標記和數據準備策略,用于訓練 GPT 模型的數據的數量和質量有了顯著提高。
GPT-1:BooksCorpus 數據集用于訓練。該數據集包含4629.00 MB 的原始文本,涵蓋各種類型的書籍,例如冒險、幻想和浪漫。
-以數據為中心的 AI 策略:無。
-結果:在該數據集上使用 GPT-1 可以通過微調提高下游任務的性能。
GPT-2:訓練中使用WebText 。這是 OpenAI 中的一個內部數據集,通過從 Reddit 抓取出站鏈接創建。-以數據為中心的 AI 策略:(1) 僅使用來自 Reddit 的出站鏈接來整理/過濾數據,該鏈接至少獲得 3 個業力。(2) 使用工具Dragnet和Newspaper來提取干凈的內容。(3) 采用去重和其他一些基于啟發式的清洗。-結果:過濾后得到 40 GB 的文本。GPT-2 無需微調即可獲得強大的零樣本結果。
GPT-3:GPT-3的訓練主要基于Common Crawl。-以數據為中心的 AI 策略:(1) 訓練分類器根據每個文檔與WebText(高質量文檔)的相似性過濾掉低質量文檔。(2)利用Spark的MinHashLSH對文檔進行模糊去重。(3) 使用WebText、圖書語料庫和維基百科擴充數據。- 結果:45TB的明文過濾后得到570GB的文本(本次質量過濾只選擇了1.27%的數據)。GPT-3 在零樣本設置中明顯優于 GPT-2。
InstructGPT:讓人類評估調整GPT-3 的答案,使其更好地符合人類的期望。他們為標注者設計了測試,只有通過測試的人才有資格標注。他們甚至設計了一項調查,以確保注釋者全心投入到注釋過程中。-以數據為中心的 AI 策略:(1)使用人類提供的提示答案通過監督訓練調整模型。(2)收集比較數據以訓練獎勵模型,然后使用此獎勵模型通過人類反饋強化學習(RLHF)調整GPT-3。- 結果:InstructGPT 表現出更好的真實性和更少的偏差,即更好的對齊。
ChatGPT/GPT-4:OpenAI 沒有透露細節。但眾所周知,ChatGPT/GPT-4 很大程度上沿用了之前 GPT 模型的設計,他們仍然使用 RLHF 來調整模型(可能有更多和更高質量的數據/標簽)。人們普遍認為,隨著模型權重的增加,GPT-4 使用了更大的數據集。
推理數據開發。由于最近的 GPT 模型已經足夠強大,我們可以通過在模型固定的情況下調整提示或調整推理數據來實現各種目標。例如,我們可以通過提供要總結的文本以及諸如“總結它”或“TL;DR”之類的指令來引導推理過程,從而進行文本摘要。
及時調整
設計正確的推理提示是一項具有挑戰性的任務。它嚴重依賴啟發式方法。一個很好的調查總結了不同的促銷方法。有時,即使是語義相似的提示也會有非常不同的輸出。在這種情況下,可能需要基于軟提示的校準來減少方差。
LLM推理數據開發的研究仍處于早期階段。在不久的將來,可以在 LLM 中應用更多已用于其他任務的推理數據開發技術。
數據維護。ChatGPT/GPT-4作為商業產品,不僅訓練一次,而且不斷更新和維護。顯然,我們無法知道在 OpenAI 之外如何進行數據維護。因此,我們討論了一些通用的以數據為中心的 AI 策略,這些策略已經或將很可能用于 GPT 模型:- 連續數據收集:當我們使用 ChatGPT/GPT-4 時,我們的提示/反饋可能反過來被 OpenAI 使用進一步推進他們的模型。可能已經設計并實施了質量指標和保證策略,以在此過程中收集高質量數據。- 數據理解工具:可以開發各種工具來可視化和理解用戶數據,促進更好地了解用戶需求并指導未來改進的方向。- 高效的數據處理:隨著ChatGPT/GPT-4用戶數量的快速增長,需要一個高效的數據管理系統來實現快速的數據采集。
上圖是ChatGPT/GPT-4 通過“贊”和“不贊”收集用戶反饋的示例。
LLM的成功徹底改變了人工智能。展望未來,LLM可以進一步徹底改變數據科學生命周期。我們做出兩個預測:
以數據為中心的人工智能變得更加重要。經過多年研究,模型設計已經非常成熟,尤其是在Transformer之后。數據成為未來改進 AI 系統的關鍵方式。另外,當模型變得足夠強大時,我們就不需要在日常工作中訓練模型了。相反,我們只需要設計適當的推理數據來從模型中探索知識。因此,以數據為中心的人工智能的研發將推動未來的進步。
許多繁瑣的數據科學工作可以在LLM的幫助下更有效地進行。例如,ChaGPT/GPT-4 已經可以編寫可工作的代碼來處理和清洗數據。此外,LLM 甚至可以用于創建訓練數據。例如使用 LLM 生成合成數據可以提高文本挖掘中的模型性能。
關鍵詞: