伊人久久大香线蕉avapp下载-97久久伊人精品影院-伊人三区-亚洲伊人久久大香线蕉综合图片-中文字幕美日韩在线高清-中文字幕伦理聚合第一页

浪潮英偉達(dá)微軟為何狂煉AI大模型?巨頭角力已經(jīng)開始

來源:36氪時(shí)間:2021-10-15 15:38:43

AI大模型領(lǐng)域的「環(huán)球影城」正式開業(yè)!

汽車人、霸天虎集結(jié),這次不是為了賽博坦,而是為了瘋狂爭奪「火種源」。

現(xiàn)實(shí)世界中,AI巨頭們在也在為這一「生命之源」——大模型展開爭奪戰(zhàn),進(jìn)行巔峰對決。

5300億參數(shù),燒了4480塊英偉達(dá)GPU,威震天-圖靈(MT-NLG)可以說是當(dāng)前最大的語言模型。此外,GPT-3有1750億參數(shù),浪潮「源1.0」2457億參數(shù)...

自從2018年谷歌推出BERT模型以來,語言模型做的越來越大,仿佛沒有終點(diǎn)。短短幾年,模型參數(shù)已經(jīng)從最初的3億,擴(kuò)張到萬億規(guī)模。

然而,這并不是終點(diǎn),爭奪「火種源」角逐還在繼續(xù)。

那么,這些AI巨頭到底在爭什么,在探索什么?

大模型究竟是否是一條正確的道路?

下一個(gè)模型有多大?+∞

從國外來看,2018年,谷歌提出3億參數(shù)BERT模型驚艷四座,將自然語言處理推向了一個(gè)前所未有的新高度。

可以說,谷歌最先開啟了大模型一股熱潮。

緊接著,OpenAI在2019年初推出GPT-2,15億參數(shù),能夠生成連貫的文本段落,做到初步的閱讀理解、機(jī)器翻譯等。

還有英偉達(dá)威震天(Megatron-LM)83億參數(shù),谷歌T5模型110億參數(shù),微軟圖靈Turing-NLG模型170億參數(shù)。

這些模型一次次不斷地刷新參數(shù)規(guī)模的數(shù)量級,而2020年卻成為這一數(shù)量級的分界線。

大火的GPT-3,1750億參數(shù),參數(shù)規(guī)模達(dá)到千億級別,直逼人類神經(jīng)元的數(shù)量。

能作詩、聊天、生成代碼等等,無所不能。

就在近日,微軟和英偉達(dá)聯(lián)手發(fā)布了Megatron-Turing自然語言生成模型(MT-NLG),5300億參數(shù)。

號稱同時(shí)奪得單體Transformer語言模型界「最大」和「最強(qiáng)」兩個(gè)稱號。

除了千億規(guī)模的稠密單體模型,還有萬億規(guī)模的稀疏混合模型。

如果將單體模型比作珠穆朗瑪峰,那么混合模型就是喜馬拉雅山脈其他的小山峰。

谷歌在今年年初推出了1.6萬億參數(shù)的Switch Transformer。而智源「悟道2.0」1.75萬億參數(shù)再次刷新萬億參數(shù)規(guī)模的記錄。

好一副「百家爭鳴」之勢。

為什么會這樣?一句話,大模型是大勢所趨,更是必爭的高地!

如今大模型的這種盛世,與深度學(xué)習(xí)時(shí)代極其相似。

就好比十幾年前深度學(xué)習(xí)的崛起一樣,國內(nèi)外AI巨頭看到了這個(gè)技術(shù)的未來,于是紛紛入局于此,各種各樣深度學(xué)習(xí)的模型不斷涌現(xiàn)。

現(xiàn)在,大模型更迭速度只會越來越快。

NLP單體模型大PK

那么,為什么我們要比較這幾個(gè)模型呢?

在討論這個(gè)問題之前,需要先搞懂大模型都有哪些分類。

比如說,從模型架構(gòu)角度:單體、混合;功能角度:NLP、CV、對話等等。

其中,谷歌「Switch Transformer」采用Mixture of Experts (MoE,混合專家) 模式將模型進(jìn)行了切分,其結(jié)果是得到的是一個(gè)稀疏激活模型。雖然節(jié)省了計(jì)算資源,但是精度卻很難提高。

目前來說,自然語言處理領(lǐng)域單體大模型的頂流是:「GPT-3」、「MT-NLG」以及「源 1.0」。

https://arxiv.org/pdf/2110.04725.pdf

不過,中文和英文的模型之間區(qū)別還是很大的。

在自然語言理解方面,由于分詞方式不同、同一詞組不同歧義以及新詞匯等方面挑戰(zhàn),所以中文訓(xùn)練的難度更高。

例如分詞難點(diǎn):中國科學(xué)技術(shù)大學(xué);中國\科學(xué)技術(shù)\大學(xué);中國\科學(xué)\技術(shù)\大學(xué)。這三種不同的分詞形式,表達(dá)的意思有著天壤之別。這還僅僅是其中之一。

因此,訓(xùn)練中文NPL模型的訓(xùn)練難度要比同量級英文模型難度更高。

要做就做最大的

英文的高質(zhì)量文本數(shù)據(jù)集可謂是五花八門。

有包含HackerNews、Github、Stack Exchange、ArXiv甚至還有YouTube字幕的The Pile;有包含了超過50億份網(wǎng)頁元數(shù)據(jù)的數(shù)據(jù)平臺Common Crawl;甚至還可以用Reddit論壇的內(nèi)容來進(jìn)行訓(xùn)練。

就拿The Pile來說吧,其中包含了825GB的多樣化開源語言建模數(shù)據(jù),由22個(gè)較小的、高質(zhì)量的數(shù)據(jù)集合組成。

GPT-3采用了規(guī)模超過292TB,包含499億個(gè)token的數(shù)據(jù)集。

MT-NLG則使用了15個(gè)數(shù)據(jù)集,總共包含3390億個(gè)token。

相比起來,中文的訓(xùn)練數(shù)據(jù)就匱乏得多了。

最大的開源項(xiàng)目CLUECorpus2020只包含了100GB的高質(zhì)量數(shù)據(jù)集。

https://github.com/CLUEbenchmark/CLUECorpus2020

為了獲得高質(zhì)量的數(shù)據(jù)集, 「源1.0」的團(tuán)隊(duì)開發(fā)了一套大數(shù)據(jù)過濾系統(tǒng) Massive Data Filtering System (MDFS),其中包括數(shù)據(jù)收集、粗略過濾、精細(xì)過濾三部分。

數(shù)據(jù)預(yù)處理流程圖

數(shù)據(jù)主要來自Common Crawl、搜狗新聞(SogouN)、搜狗互聯(lián)網(wǎng)語料庫版本(SogouT,2016)、百科數(shù)據(jù)和書籍?dāng)?shù)據(jù)。

待清洗的原始數(shù)據(jù)

在對原始語料進(jìn)行粗篩選之后,團(tuán)隊(duì)又訓(xùn)練了一個(gè)基于Bert的模型來對高質(zhì)量、低質(zhì)量和廣告內(nèi)容進(jìn)行分類,并輔以人工篩查。

精細(xì)過濾之后的高質(zhì)量語料大小

最后終于得到了5TB高質(zhì)量中文數(shù)據(jù)集,其中包括近5年中文互聯(lián)網(wǎng)的全部內(nèi)容和近2000億個(gè)詞。

計(jì)算效率up!

有了數(shù)據(jù)集,也構(gòu)建好了模型,現(xiàn)在就可以來談一談訓(xùn)練了。

對于最新的「MT-NLG」,由560臺DGX A100服務(wù)器提供動力,其中每個(gè)DGX A100都有8個(gè)NVIDIA A100 80GB張量核心圖形處理器,也就是4480塊A100顯卡。每個(gè)GPU的算力直接飆到每秒113萬億次浮點(diǎn)運(yùn)算。

GPT-3的訓(xùn)練則是在超過28.5萬個(gè)CPU核心以及超過1萬個(gè)GPU上完成,GPU在訓(xùn)練過程中達(dá)到每秒2733億次浮點(diǎn)運(yùn)算。

而「源1.0」只用了2128張GPU,并在短短的16天就完成了訓(xùn)練。

這又是如何做到?

「源1.0」的團(tuán)隊(duì)創(chuàng)新性地采用了張量并行、流水線并行和數(shù)據(jù)并行的三維并行策略。

張量并行

在張量并行策略中,模型的層在節(jié)點(diǎn)內(nèi)的設(shè)備之間進(jìn)行劃分。Transformer結(jié)構(gòu)在進(jìn)行前向計(jì)算和反向傳播時(shí),注意力層和多層感知機(jī) 層的張量將會被按行或列進(jìn)行拆分。輸入端的張量首先會發(fā)送給每個(gè)加速器,在加速器中各張量獨(dú)立進(jìn)行前向計(jì)算。

流水線并行

流水線并行將 LM 的層序列在多個(gè)節(jié)點(diǎn)之間進(jìn)行分割,以解決存儲空間不足的問題。每個(gè)節(jié)點(diǎn)都是流水線中的一個(gè)階段,它接受前一階段的輸出并將結(jié)果過發(fā)送到下一階段。如果前一個(gè)相鄰節(jié)點(diǎn)的輸出尚未就緒,則當(dāng)前節(jié)點(diǎn)將處于空閑狀態(tài)。

數(shù)據(jù)并行

采用數(shù)據(jù)并行時(shí),全局批次規(guī)模按照流水線分組進(jìn)行分割。每個(gè)流水線組都包含模型的一個(gè)副本,數(shù)據(jù)在組內(nèi)按照局部批次規(guī)模送入模型副本。

從結(jié)果上看,「源1.0」的訓(xùn)練共消耗約4095PD(PetaFlop/s-day),相較于「GPT-3」的3640PD,計(jì)算效率得到大幅提升。

在零樣本和小樣本學(xué)習(xí)「霸榜」

為什么一說大模型就要提這倆貨?

原因很簡單,人類可以僅通過一個(gè)或幾個(gè)示例就可以輕松地建立對新事物的認(rèn)知,而機(jī)器學(xué)習(xí)算法通常需要成千上萬個(gè)有監(jiān)督樣本來保證其泛化能力。

而是否擁有從少量樣本中學(xué)習(xí)和概括的能力,是將人工智能和人類智能進(jìn)行區(qū)分的明顯分界點(diǎn)。其中,零樣本學(xué)習(xí)更是可以判斷計(jì)算機(jī)能否具備人類的推理和知識遷移能力,無需任何訓(xùn)練數(shù)據(jù)就能夠識別出一個(gè)從未見過的新事物。

簡單來說,零樣本學(xué)習(xí),就是訓(xùn)練的分類器不僅僅能夠識別出訓(xùn)練集中已有的數(shù)據(jù)類別,還可以對于來自未見過的類別的數(shù)據(jù)進(jìn)行區(qū)分;小樣本學(xué)習(xí),就是使用遠(yuǎn)小于深度學(xué)習(xí)所需要的數(shù)據(jù)樣本量,達(dá)到接近甚至超越大數(shù)據(jù)深度學(xué)習(xí)的效果。

不管是「GPT-3」還是「MT-NLG」,都在強(qiáng)調(diào)自己在這兩方面的學(xué)習(xí)能力。

當(dāng)然,二者的區(qū)別在于,作為前任SOTA的「GPT-3」被「MT-NLG」以微弱的優(yōu)勢「干」掉了。

「GPT-3」在LAMBDA和PIQA測試集上取得的成績

「MT-NLG」在LAMBDA和PIQA測試集上取得的成績

「源1.0」雖然沒有辦法直接和二者進(jìn)行對比,不過在中文最大規(guī)模的語言評估基準(zhǔn)——CLUE上的成績還是很有說服力的。

在ZeroCLUE零樣本學(xué)習(xí)榜單中,「源1.0」以超越業(yè)界最佳成績18.3%的絕對優(yōu)勢遙遙領(lǐng)先。在文獻(xiàn)分類、新聞分類,商品分類、原生中文推理、成語閱讀理解填空、名詞代詞關(guān)系6項(xiàng)任務(wù)中獲得冠軍。

在FewCLUE小樣本學(xué)習(xí)榜單中,「源1.0」獲得了文獻(xiàn)分類、商品分類、文獻(xiàn)摘要識別、名詞代詞關(guān)系等4項(xiàng)任務(wù)的冠軍。

刷榜終究是刷榜,雖然成績很好,但實(shí)戰(zhàn)起來還是很容易被人類「一眼看穿」。

不過,其實(shí)從成績單上的分?jǐn)?shù)也能看出,不管是英文還是中文的模型,和人類比起來差距還是很大的。

尤其是在情感理解和話題表達(dá)方面這類沒有特定規(guī)則的情景下,比如作詩、寫故事等等。

大模型,去哪?

AI巨頭競相追逐模型規(guī)模的新高度,這自然帶來一個(gè)靈魂之問:他們在探索什么?

當(dāng)前,語言模型的訓(xùn)練已經(jīng)從「大煉模型」走向「煉大模型」的階段,巨量模型也成為業(yè)界關(guān)注的焦點(diǎn)。

近日,Percy Liang,李飛飛等一百多位學(xué)者在發(fā)表的 200 多頁的研究綜述 On the Opportunities and Risk of Foundation Models 中闡述了巨量模型的意義在于「突現(xiàn)和均質(zhì)」。

論文中,他們給這種大模型取了一個(gè)名字,叫基礎(chǔ)模型(foundation model),其在NLP領(lǐng)域表現(xiàn)出了強(qiáng)大的通用性和適用性。

目前AI研究的涌現(xiàn)性和同質(zhì)化特征

構(gòu)建越來越大的模型,真的就會越來越好嗎?

從ELMo到Bert再到之后的GPT-3等一系列模型,預(yù)訓(xùn)練模型的性能一直在提升,這是一個(gè)非常強(qiáng)的證據(jù)。

而現(xiàn)在威震天-圖靈的參數(shù)量是5300多億,可見,當(dāng)前模型的參數(shù)規(guī)??赡芤矝]有達(dá)到通用人工智能所要求的水平。

所以說,更大的模型依舊是剛需。

那么,構(gòu)建越來越大的模型,真的能夠通向通用人工智能(AGI)嗎?

OpenAI 的無監(jiān)督轉(zhuǎn)化語言模型 GPT-3,展現(xiàn)出了從海量未標(biāo)記數(shù)據(jù)中學(xué)習(xí),且不限于某一特定任務(wù)的「通用」能力。

因此讓許多人看到了基于大規(guī)模預(yù)訓(xùn)練模型探索通用人工智能的可能。

坦白講,我們開始對大模型認(rèn)識不太清晰的時(shí)候,認(rèn)為它只是用來作首詩,對個(gè)對子,但其實(shí)這些并不是大模型的魅力所在。

大模型真正的魅力在于「不可知」,而在于對未來的一個(gè)探討。

一位清華教授曾表示,GPT-3已經(jīng)越來越接近人類水平,但它有一個(gè)「阿喀琉斯之踵」。

GPT這說明,GPT-3很聰明,但它仍有一些認(rèn)知局限——沒有常識。

自然語言處理研究員、康奈爾大學(xué)數(shù)據(jù)科學(xué)家Maria Antoniak表示,「談到自然語言,更大的模型是否是正確的方法是一個(gè)懸而未決的問題。

雖然目前一些最好的基準(zhǔn)性能得分來自大型數(shù)據(jù)集和模型,但是將大量數(shù)據(jù)傾倒到模型中的回報(bào)是不確定的。」

這足以證明,對大模型進(jìn)行探索是一個(gè)持續(xù)不斷的過程。

全球AI巨頭爭的是,探索的是大模型未知領(lǐng)域的「處女地」,可以說是面向通用智能最高階智能的探索。

其實(shí),不僅僅是科學(xué)探索,它必然會產(chǎn)生一種催化效應(yīng),探索的成果也會帶動CV、OCR、語音等領(lǐng)域的發(fā)展。

因?yàn)?,最終的智能產(chǎn)生是在這基礎(chǔ)之上建立的。

我是誰?我在哪?我將要去向何方...

這對于人類來說是一直探索的哲學(xué)問題,那么機(jī)器會如何回答?

當(dāng)我們輸入一些命題時(shí),它能夠給出很多靈感式答案。

「源1.0」便是一個(gè)非常好的開始,但未來的路還很長。

參考資料:

https://arxiv.org/pdf/2005.14165.pdf

https://arxiv.org/pdf/2004.05986.pdf

https://arxiv.org/pdf/2110.04725.pdf

https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

https://easyai.tech/ai-definition/tokenization/

https://lifearchitect.ai/models/#contents

本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權(quán)發(fā)布。

責(zé)任編輯:FD31
上一篇:誰能制造中國版《魷魚游戲》?
下一篇:最后一頁

信用中國

  • 信用信息
  • 行政許可和行政處罰
  • 網(wǎng)站文章
主站蜘蛛池模板: 久久综合九色综合网站| 在线观看va| 中文字幕一精品亚洲无线一区| 久久99热66这里只有精品一| 天天5g天天爽永久免费看欧美| 国产欧美日韩精品专区| 欧美国产日本高清不卡| 国产一精品一av一免费爽爽 | 久久久久久久久久国产精品免费| 国产视频精品久久| 攵女yin乱合集高h小丹| 动漫人物将机机插曲3d版视频 | 日本三级高清电影全部| 粗大黑硬长爽猛欧美视频| 精品国产污污免费网站入口| 久久99精品久久久久久| 精品伊人久久大线蕉色首页| 青青草97| 美国式性禁忌| 男男动漫全程肉无删减有什么| 日韩一区二区三区电影| 天天舔天天操天天干| 暖暖直播在线观看| 91精品国产免费| 老司机带带我懂得视频| 色多多在线观看视频| 欧美一区二区三区久久久人妖 | 免费一级黄色录像影片| 日韩欧美一区二区三区免费观看| 亚洲欧美一区二区三区在线| 老子影院午夜伦手机电影| 日产精品1区至六区有限公司| 欧美精品一区二区三区视频| 精品国产日韩亚洲一区| 美女扒开大腿让男人桶| 亚洲免费大片| 波多野结衣一区在线| 色妞色妞| 最近2019免费中文字幕视频三| 国产浮力第一影院| 婷婷亚洲久悠悠色悠在线播放 |