浪潮英偉達(dá)微軟為何狂煉AI大模型？巨頭角力已經(jīng)開始

來源：36氪時(shí)間：2021-10-15 15:38:43

AI大模型領(lǐng)域的「環(huán)球影城」正式開業(yè)！

汽車人、霸天虎集結(jié)，這次不是為了賽博坦，而是為了瘋狂爭奪「火種源」。

現(xiàn)實(shí)世界中，AI巨頭們在也在為這一「生命之源」——大模型展開爭奪戰(zhàn)，進(jìn)行巔峰對決。

5300億參數(shù)，燒了4480塊英偉達(dá)GPU，威震天-圖靈（MT-NLG）可以說是當(dāng)前最大的語言模型。此外，GPT-3有1750億參數(shù)，浪潮「源1.0」2457億參數(shù)...

自從2018年谷歌推出BERT模型以來，語言模型做的越來越大，仿佛沒有終點(diǎn)。短短幾年，模型參數(shù)已經(jīng)從最初的3億，擴(kuò)張到萬億規(guī)模。

然而，這并不是終點(diǎn)，爭奪「火種源」角逐還在繼續(xù)。

那么，這些AI巨頭到底在爭什么，在探索什么？

大模型究竟是否是一條正確的道路？

下一個(gè)模型有多大？+∞

從國外來看，2018年，谷歌提出3億參數(shù)BERT模型驚艷四座，將自然語言處理推向了一個(gè)前所未有的新高度。

可以說，谷歌最先開啟了大模型一股熱潮。

緊接著，OpenAI在2019年初推出GPT-2，15億參數(shù)，能夠生成連貫的文本段落，做到初步的閱讀理解、機(jī)器翻譯等。

還有英偉達(dá)威震天（Megatron-LM）83億參數(shù)，谷歌T5模型110億參數(shù)，微軟圖靈Turing-NLG模型170億參數(shù)。

這些模型一次次不斷地刷新參數(shù)規(guī)模的數(shù)量級，而2020年卻成為這一數(shù)量級的分界線。

大火的GPT-3，1750億參數(shù)，參數(shù)規(guī)模達(dá)到千億級別，直逼人類神經(jīng)元的數(shù)量。

能作詩、聊天、生成代碼等等，無所不能。

就在近日，微軟和英偉達(dá)聯(lián)手發(fā)布了Megatron-Turing自然語言生成模型(MT-NLG)，5300億參數(shù)。

號稱同時(shí)奪得單體Transformer語言模型界「最大」和「最強(qiáng)」兩個(gè)稱號。

除了千億規(guī)模的稠密單體模型，還有萬億規(guī)模的稀疏混合模型。

如果將單體模型比作珠穆朗瑪峰，那么混合模型就是喜馬拉雅山脈其他的小山峰。

谷歌在今年年初推出了1.6萬億參數(shù)的Switch Transformer。而智源「悟道2.0」1.75萬億參數(shù)再次刷新萬億參數(shù)規(guī)模的記錄。

好一副「百家爭鳴」之勢。

為什么會這樣？一句話，大模型是大勢所趨，更是必爭的高地！

如今大模型的這種盛世，與深度學(xué)習(xí)時(shí)代極其相似。

就好比十幾年前深度學(xué)習(xí)的崛起一樣，國內(nèi)外AI巨頭看到了這個(gè)技術(shù)的未來，于是紛紛入局于此，各種各樣深度學(xué)習(xí)的模型不斷涌現(xiàn)。

現(xiàn)在，大模型更迭速度只會越來越快。

NLP單體模型大PK

那么，為什么我們要比較這幾個(gè)模型呢？

在討論這個(gè)問題之前，需要先搞懂大模型都有哪些分類。

比如說，從模型架構(gòu)角度：單體、混合；功能角度：NLP、CV、對話等等。

其中，谷歌「Switch Transformer」采用Mixture of Experts (MoE，混合專家) 模式將模型進(jìn)行了切分，其結(jié)果是得到的是一個(gè)稀疏激活模型。雖然節(jié)省了計(jì)算資源，但是精度卻很難提高。

目前來說，自然語言處理領(lǐng)域單體大模型的頂流是：「GPT-3」、「MT-NLG」以及「源 1.0」。

https://arxiv.org/pdf/2110.04725.pdf

不過，中文和英文的模型之間區(qū)別還是很大的。

在自然語言理解方面，由于分詞方式不同、同一詞組不同歧義以及新詞匯等方面挑戰(zhàn)，所以中文訓(xùn)練的難度更高。

例如分詞難點(diǎn)：中國科學(xué)技術(shù)大學(xué)；中國\科學(xué)技術(shù)\大學(xué)；中國\科學(xué)\技術(shù)\大學(xué)。這三種不同的分詞形式，表達(dá)的意思有著天壤之別。這還僅僅是其中之一。

因此，訓(xùn)練中文NPL模型的訓(xùn)練難度要比同量級英文模型難度更高。

要做就做最大的

英文的高質(zhì)量文本數(shù)據(jù)集可謂是五花八門。

有包含HackerNews、Github、Stack Exchange、ArXiv甚至還有YouTube字幕的The Pile；有包含了超過50億份網(wǎng)頁元數(shù)據(jù)的數(shù)據(jù)平臺Common Crawl；甚至還可以用Reddit論壇的內(nèi)容來進(jìn)行訓(xùn)練。

就拿The Pile來說吧，其中包含了825GB的多樣化開源語言建模數(shù)據(jù)，由22個(gè)較小的、高質(zhì)量的數(shù)據(jù)集合組成。

GPT-3采用了規(guī)模超過292TB，包含499億個(gè)token的數(shù)據(jù)集。

MT-NLG則使用了15個(gè)數(shù)據(jù)集，總共包含3390億個(gè)token。

相比起來，中文的訓(xùn)練數(shù)據(jù)就匱乏得多了。

最大的開源項(xiàng)目CLUECorpus2020只包含了100GB的高質(zhì)量數(shù)據(jù)集。

https://github.com/CLUEbenchmark/CLUECorpus2020

為了獲得高質(zhì)量的數(shù)據(jù)集，「源1.0」的團(tuán)隊(duì)開發(fā)了一套大數(shù)據(jù)過濾系統(tǒng) Massive Data Filtering System (MDFS)，其中包括數(shù)據(jù)收集、粗略過濾、精細(xì)過濾三部分。

數(shù)據(jù)預(yù)處理流程圖

數(shù)據(jù)主要來自Common Crawl、搜狗新聞（SogouN）、搜狗互聯(lián)網(wǎng)語料庫版本(SogouT，2016)、百科數(shù)據(jù)和書籍?dāng)?shù)據(jù)。

待清洗的原始數(shù)據(jù)

在對原始語料進(jìn)行粗篩選之后，團(tuán)隊(duì)又訓(xùn)練了一個(gè)基于Bert的模型來對高質(zhì)量、低質(zhì)量和廣告內(nèi)容進(jìn)行分類，并輔以人工篩查。

精細(xì)過濾之后的高質(zhì)量語料大小

最后終于得到了5TB高質(zhì)量中文數(shù)據(jù)集，其中包括近5年中文互聯(lián)網(wǎng)的全部內(nèi)容和近2000億個(gè)詞。

計(jì)算效率up！

有了數(shù)據(jù)集，也構(gòu)建好了模型，現(xiàn)在就可以來談一談訓(xùn)練了。

對于最新的「MT-NLG」，由560臺DGX A100服務(wù)器提供動力，其中每個(gè)DGX A100都有8個(gè)NVIDIA A100 80GB張量核心圖形處理器，也就是4480塊A100顯卡。每個(gè)GPU的算力直接飆到每秒113萬億次浮點(diǎn)運(yùn)算。

GPT-3的訓(xùn)練則是在超過28.5萬個(gè)CPU核心以及超過1萬個(gè)GPU上完成，GPU在訓(xùn)練過程中達(dá)到每秒2733億次浮點(diǎn)運(yùn)算。

而「源1.0」只用了2128張GPU，并在短短的16天就完成了訓(xùn)練。

這又是如何做到？

「源1.0」的團(tuán)隊(duì)創(chuàng)新性地采用了張量并行、流水線并行和數(shù)據(jù)并行的三維并行策略。

張量并行

在張量并行策略中，模型的層在節(jié)點(diǎn)內(nèi)的設(shè)備之間進(jìn)行劃分。Transformer結(jié)構(gòu)在進(jìn)行前向計(jì)算和反向傳播時(shí)，注意力層和多層感知機(jī) 層的張量將會被按行或列進(jìn)行拆分。輸入端的張量首先會發(fā)送給每個(gè)加速器，在加速器中各張量獨(dú)立進(jìn)行前向計(jì)算。

流水線并行

流水線并行將 LM 的層序列在多個(gè)節(jié)點(diǎn)之間進(jìn)行分割，以解決存儲空間不足的問題。每個(gè)節(jié)點(diǎn)都是流水線中的一個(gè)階段，它接受前一階段的輸出并將結(jié)果過發(fā)送到下一階段。如果前一個(gè)相鄰節(jié)點(diǎn)的輸出尚未就緒，則當(dāng)前節(jié)點(diǎn)將處于空閑狀態(tài)。

數(shù)據(jù)并行

采用數(shù)據(jù)并行時(shí)，全局批次規(guī)模按照流水線分組進(jìn)行分割。每個(gè)流水線組都包含模型的一個(gè)副本，數(shù)據(jù)在組內(nèi)按照局部批次規(guī)模送入模型副本。

從結(jié)果上看，「源1.0」的訓(xùn)練共消耗約4095PD（PetaFlop/s-day），相較于「GPT-3」的3640PD，計(jì)算效率得到大幅提升。

在零樣本和小樣本學(xué)習(xí)「霸榜」

為什么一說大模型就要提這倆貨？

原因很簡單，人類可以僅通過一個(gè)或幾個(gè)示例就可以輕松地建立對新事物的認(rèn)知，而機(jī)器學(xué)習(xí)算法通常需要成千上萬個(gè)有監(jiān)督樣本來保證其泛化能力。

而是否擁有從少量樣本中學(xué)習(xí)和概括的能力，是將人工智能和人類智能進(jìn)行區(qū)分的明顯分界點(diǎn)。其中，零樣本學(xué)習(xí)更是可以判斷計(jì)算機(jī)能否具備人類的推理和知識遷移能力，無需任何訓(xùn)練數(shù)據(jù)就能夠識別出一個(gè)從未見過的新事物。

簡單來說，零樣本學(xué)習(xí)，就是訓(xùn)練的分類器不僅僅能夠識別出訓(xùn)練集中已有的數(shù)據(jù)類別，還可以對于來自未見過的類別的數(shù)據(jù)進(jìn)行區(qū)分；小樣本學(xué)習(xí)，就是使用遠(yuǎn)小于深度學(xué)習(xí)所需要的數(shù)據(jù)樣本量，達(dá)到接近甚至超越大數(shù)據(jù)深度學(xué)習(xí)的效果。

不管是「GPT-3」還是「MT-NLG」，都在強(qiáng)調(diào)自己在這兩方面的學(xué)習(xí)能力。

當(dāng)然，二者的區(qū)別在于，作為前任SOTA的「GPT-3」被「MT-NLG」以微弱的優(yōu)勢「干」掉了。

「GPT-3」在LAMBDA和PIQA測試集上取得的成績

「MT-NLG」在LAMBDA和PIQA測試集上取得的成績

「源1.0」雖然沒有辦法直接和二者進(jìn)行對比，不過在中文最大規(guī)模的語言評估基準(zhǔn)——CLUE上的成績還是很有說服力的。

在ZeroCLUE零樣本學(xué)習(xí)榜單中，「源1.0」以超越業(yè)界最佳成績18.3%的絕對優(yōu)勢遙遙領(lǐng)先。在文獻(xiàn)分類、新聞分類，商品分類、原生中文推理、成語閱讀理解填空、名詞代詞關(guān)系6項(xiàng)任務(wù)中獲得冠軍。

在FewCLUE小樣本學(xué)習(xí)榜單中，「源1.0」獲得了文獻(xiàn)分類、商品分類、文獻(xiàn)摘要識別、名詞代詞關(guān)系等4項(xiàng)任務(wù)的冠軍。

刷榜終究是刷榜，雖然成績很好，但實(shí)戰(zhàn)起來還是很容易被人類「一眼看穿」。

不過，其實(shí)從成績單上的分?jǐn)?shù)也能看出，不管是英文還是中文的模型，和人類比起來差距還是很大的。

尤其是在情感理解和話題表達(dá)方面這類沒有特定規(guī)則的情景下，比如作詩、寫故事等等。

大模型，去哪？

AI巨頭競相追逐模型規(guī)模的新高度，這自然帶來一個(gè)靈魂之問：他們在探索什么？

當(dāng)前，語言模型的訓(xùn)練已經(jīng)從「大煉模型」走向「煉大模型」的階段，巨量模型也成為業(yè)界關(guān)注的焦點(diǎn)。

近日，Percy Liang，李飛飛等一百多位學(xué)者在發(fā)表的 200 多頁的研究綜述 On the Opportunities and Risk of Foundation Models 中闡述了巨量模型的意義在于「突現(xiàn)和均質(zhì)」。

論文中，他們給這種大模型取了一個(gè)名字，叫基礎(chǔ)模型（foundation model），其在NLP領(lǐng)域表現(xiàn)出了強(qiáng)大的通用性和適用性。

目前AI研究的涌現(xiàn)性和同質(zhì)化特征

構(gòu)建越來越大的模型，真的就會越來越好嗎？

從ELMo到Bert再到之后的GPT-3等一系列模型，預(yù)訓(xùn)練模型的性能一直在提升，這是一個(gè)非常強(qiáng)的證據(jù)。

而現(xiàn)在威震天-圖靈的參數(shù)量是5300多億，可見，當(dāng)前模型的參數(shù)規(guī)?？赡芤矝]有達(dá)到通用人工智能所要求的水平。

所以說，更大的模型依舊是剛需。

那么，構(gòu)建越來越大的模型，真的能夠通向通用人工智能（AGI）嗎？

OpenAI 的無監(jiān)督轉(zhuǎn)化語言模型 GPT-3，展現(xiàn)出了從海量未標(biāo)記數(shù)據(jù)中學(xué)習(xí)，且不限于某一特定任務(wù)的「通用」能力。

因此讓許多人看到了基于大規(guī)模預(yù)訓(xùn)練模型探索通用人工智能的可能。

坦白講，我們開始對大模型認(rèn)識不太清晰的時(shí)候，認(rèn)為它只是用來作首詩，對個(gè)對子，但其實(shí)這些并不是大模型的魅力所在。

大模型真正的魅力在于「不可知」，而在于對未來的一個(gè)探討。

一位清華教授曾表示，GPT-3已經(jīng)越來越接近人類水平，但它有一個(gè)「阿喀琉斯之踵」。

GPT這說明，GPT-3很聰明，但它仍有一些認(rèn)知局限——沒有常識。

自然語言處理研究員、康奈爾大學(xué)數(shù)據(jù)科學(xué)家Maria Antoniak表示，「談到自然語言，更大的模型是否是正確的方法是一個(gè)懸而未決的問題。

雖然目前一些最好的基準(zhǔn)性能得分來自大型數(shù)據(jù)集和模型，但是將大量數(shù)據(jù)傾倒到模型中的回報(bào)是不確定的。」

這足以證明，對大模型進(jìn)行探索是一個(gè)持續(xù)不斷的過程。

全球AI巨頭爭的是，探索的是大模型未知領(lǐng)域的「處女地」，可以說是面向通用智能最高階智能的探索。

其實(shí)，不僅僅是科學(xué)探索，它必然會產(chǎn)生一種催化效應(yīng)，探索的成果也會帶動CV、OCR、語音等領(lǐng)域的發(fā)展。

因?yàn)?，最終的智能產(chǎn)生是在這基礎(chǔ)之上建立的。

我是誰？我在哪？我將要去向何方...

這對于人類來說是一直探索的哲學(xué)問題，那么機(jī)器會如何回答？

當(dāng)我們輸入一些命題時(shí)，它能夠給出很多靈感式答案。

「源1.0」便是一個(gè)非常好的開始，但未來的路還很長。

參考資料：

https://arxiv.org/pdf/2005.14165.pdf

https://arxiv.org/pdf/2004.05986.pdf

https://arxiv.org/pdf/2110.04725.pdf

https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

https://easyai.tech/ai-definition/tokenization/

https://lifearchitect.ai/models/#contents

本文來自微信公眾號“新智元”（ID：AI_era），作者：新智元，36氪經(jīng)授權(quán)發(fā)布。

責(zé)任編輯：FD31

上一篇：誰能制造中國版《魷魚游戲》？

下一篇：最后一頁

伊人久久大香线蕉avapp下载-97久久伊人精品影院-伊人三区-亚洲伊人久久大香线蕉综合图片-中文字幕美日韩在线高清-中文字幕伦理聚合第一页

浪潮英偉達(dá)微軟為何狂煉AI大模型？巨頭角力已經(jīng)開始

下一個(gè)模型有多大？+∞

NLP單體模型大PK

大模型，去哪？

精彩圖集(熱圖)

醫(yī)美概念股早盤跌幅居前常山藥業(yè)、重藥控股跟跌

石油化工概念股早盤下挫大慶華科、上海石化跟跌

零跑汽車考慮在香港IPO 籌資至少10億美元

關(guān)于秋褲的冷知識秋褲的英文是Long Johns

監(jiān)管圈定意外險(xiǎn)銷售“禁區(qū)” 明確意外險(xiǎn)的“負(fù)面清單”

西湖大學(xué)云谷校區(qū)23日啟用學(xué)術(shù)環(huán)建筑群顯眼

熱詞榜

編輯推薦

精彩圖集

專題策劃

信用中國

瀏覽排行

伊人久久大香线蕉avapp下载-97久久伊人精品影院-伊人三区-亚洲伊人久久大香线蕉综合图片-中文字幕美日韩在线高清-中文字幕伦理聚合第一页

浪潮英偉達(dá)微軟為何狂煉AI大模型？巨頭角力已經(jīng)開始

下一個(gè)模型有多大？+∞

NLP單體模型大PK

大模型，去哪？

精彩圖集(熱圖)

醫(yī)美概念股早盤跌幅居前 常山藥業(yè)、重藥控股跟跌

石油化工概念股早盤下挫 大慶華科、上海石化跟跌

零跑汽車考慮在香港IPO 籌資至少10億美元

關(guān)于秋褲的冷知識 秋褲的英文是Long Johns

監(jiān)管圈定意外險(xiǎn)銷售“禁區(qū)” 明確意外險(xiǎn)的“負(fù)面清單”

西湖大學(xué)云谷校區(qū)23日啟用 學(xué)術(shù)環(huán)建筑群顯眼

熱詞榜

編輯推薦

精彩圖集

專題策劃

信用中國

瀏覽排行

下一個(gè)模型有多大？+∞

大模型，去哪？

醫(yī)美概念股早盤跌幅居前常山藥業(yè)、重藥控股跟跌

石油化工概念股早盤下挫大慶華科、上海石化跟跌

關(guān)于秋褲的冷知識秋褲的英文是Long Johns

西湖大學(xué)云谷校區(qū)23日啟用學(xué)術(shù)環(huán)建筑群顯眼