“文瀾B(tài)riVL”模型設(shè)計(jì)者、人大教授盧志武：多模態(tài)大模型，我國(guó)彎道超車(chē)的可能性很大 | 36氪專(zhuān)訪

來(lái)源：36kr時(shí)間：2023-03-28 13:58:01

采訪 | 周鑫雨、蘇建勛、楊軒

文| 周鑫雨

編輯| 蘇建勛

【資料圖】

想過(guò)河，但連一塊石頭都摸不著。這是2020年盧志武和中國(guó)人民大學(xué)高瓴人工智能學(xué)院團(tuán)隊(duì)自研多模態(tài)大模型時(shí)遇到的困境。

彼時(shí)，GPT-3已經(jīng)發(fā)布，國(guó)內(nèi)NLP（自然語(yǔ)言處理）領(lǐng)域的研究已逐漸形成規(guī)模。但將涉及領(lǐng)域從文字?jǐn)U展到圖像、視頻的多模態(tài)大模型，依然幾近“無(wú)人區(qū)”。

在一年多的時(shí)間里，團(tuán)隊(duì)做了許多“前無(wú)古人”的嘗試。比如在2021年初，率先采用微軟新推出的Deep Speed框架來(lái)支持幾十億參數(shù)模型的訓(xùn)練。在資源稀缺的情況下，“巧勁”也是必須的——為了減少顯存占用，團(tuán)隊(duì)嘗試性地采用了ViT（VisionTransformer）架構(gòu)，還在自監(jiān)督訓(xùn)練中采取了較小的Batch（分批處理）而不降低效果。

2021年3月，團(tuán)隊(duì)的無(wú)人區(qū)探索有了初步的成果：多模態(tài)大模型“文瀾B(tài)riVL 1.0（Bridging-Vision-and-Language 1.0）”，后續(xù)還發(fā)布了 “文瀾B(tài)riVL 2.0”。兩年后，2023年3月8日，盧志武團(tuán)隊(duì)借鑒文瀾的研究經(jīng)驗(yàn)，自主研發(fā)了多模態(tài)對(duì)話(huà)大模型，并落地了第一款應(yīng)用級(jí)多模態(tài)ChatGPT產(chǎn)品：“元乘象 ChatImg”。

“元乘象 ChatImg”好比是“會(huì)看圖的ChatGPT”。據(jù)盧志武介紹，基于多模態(tài)融合模塊和語(yǔ)言解碼器，目前Chatlmg參數(shù)規(guī)模大概為150億。用戶(hù)輸入一張圖片，Chatlmg就能對(duì)其中的內(nèi)容進(jìn)行解讀，并繼續(xù)相關(guān)的對(duì)話(huà)。

元乘象 ChatImg圖文交互演示。

從艱難穿越無(wú)人區(qū)到落地應(yīng)用，盧志武認(rèn)為，中國(guó)AI模型研究者不僅要精于技術(shù)，也要敢于擁抱新技術(shù)。同時(shí)，學(xué)者們也要認(rèn)識(shí)到，從研究走向落地，仍需要跨過(guò)一些鴻溝。

以下是36氪和盧志武的對(duì)話(huà)：

穿越無(wú)人區(qū)

36氪：您為什么在3月8日這個(gè)時(shí)間點(diǎn)推出多模態(tài)大模型產(chǎn)品ChatImg？

盧志武：去年11月30日ChatGPT推出后，各方測(cè)評(píng)后都發(fā)現(xiàn)了現(xiàn)有研究范式將面臨嚴(yán)峻的挑戰(zhàn)。之前的NLP研究都是針對(duì)單任務(wù)去訓(xùn)練小模型，比如翻譯、實(shí)體識(shí)別、情感分析等。但是ChatGPT出現(xiàn)后，一個(gè)大模型就可以完成所有的任務(wù)。所以，單獨(dú)對(duì)每個(gè)任務(wù)進(jìn)行研究失去了意義。

ChatGPT的發(fā)布對(duì)多模態(tài)方向的沖擊相對(duì)少一點(diǎn)，畢竟ChatGPT的強(qiáng)項(xiàng)是在文本處理。但是當(dāng)時(shí)我們也聽(tīng)到一些關(guān)于GPT-4想要做多模態(tài)的風(fēng)聲，因此也特別著急。所以團(tuán)隊(duì)趕緊用了大概2個(gè)月的時(shí)間去訓(xùn)練ChatImg，在3月8日這個(gè)時(shí)間點(diǎn)推出，比GPT-4和百度的文心一言更早。

36氪：按任務(wù)劃分研究方向的模式是如何誕生的？

盧志武：NLP的研究其實(shí)有很長(zhǎng)的歷史，針對(duì)不同的細(xì)分領(lǐng)域，比如情感分析、實(shí)體識(shí)別、翻譯，大家想的都是分開(kāi)每個(gè)老師自己做，沒(méi)有想過(guò)用一個(gè)方法把任務(wù)一統(tǒng)天下。

2020年GPT-3出來(lái)的時(shí)候，其實(shí)有點(diǎn)出乎大家的意料，用一個(gè)大模型就可以做多個(gè)任務(wù)。但是當(dāng)時(shí)GPT-3的效果還沒(méi)那么好，所以大家也沒(méi)有重視。

36氪：研究方向的差異會(huì)造成研究方法的不同嗎？

盧志武：差別太大了。比如說(shuō)單獨(dú)做翻譯任務(wù)，我們只要專(zhuān)門(mén)去收集翻譯數(shù)據(jù)，訓(xùn)練一個(gè)小模型，絕大部分高效的研究人員都能做這件事。但是大語(yǔ)言模型需要很多數(shù)據(jù)和算力，一般高校的老師就做不了，基本上被大廠壟斷了。

36氪：在2020年GPT-3出來(lái)后，國(guó)內(nèi)會(huì)不會(huì)有研究人員想做大模型，但是由于您剛才說(shuō)的數(shù)據(jù)和算力等資源的限制無(wú)法做？

盧志武：其實(shí)2020年的時(shí)候，國(guó)內(nèi)一些研究者已經(jīng)意識(shí)到大模型的重要性，比如我們開(kāi)始做多模態(tài)大模型，以及智源研究院的唐杰和劉知遠(yuǎn)教授，是國(guó)內(nèi)最早做自然語(yǔ)言大模型的一批。

但國(guó)內(nèi)主要缺的是算力，當(dāng)然高質(zhì)量數(shù)據(jù)也是一個(gè)難點(diǎn)。另外，在模型商業(yè)落地的過(guò)程當(dāng)中，由于模型本身很大，推理過(guò)程消耗的算力就很多，成本太高了，可能要幾十張卡才能部署起來(lái)，根本沒(méi)法落地。所以2020年的時(shí)候大家做的基本是純學(xué)術(shù)研究。

36氪：2020年的時(shí)候，團(tuán)隊(duì)和智源研究院合作，對(duì)方主要提供的也是算力資源？

盧志武：是的。大概在2021年初，我們組做文瀾訓(xùn)練的過(guò)程中，最多的時(shí)候用了約400塊A100，最后在算力上都花了3000萬(wàn)元。

36氪：在模型研發(fā)過(guò)程中團(tuán)隊(duì)還遇到過(guò)哪些困難？

盧志武：當(dāng)時(shí)我們是國(guó)內(nèi)最早一批做多模態(tài)大模型的，沒(méi)有人告訴你怎么走，連模型怎么設(shè)計(jì)都不知道。最后我們用了大概半年的時(shí)間定了一個(gè)方案，慢慢用一小部分?jǐn)?shù)據(jù)去測(cè)試，發(fā)現(xiàn)效果不錯(cuò)，就拿更大體量的數(shù)據(jù)去測(cè)試，最后直接上了6億數(shù)據(jù)去訓(xùn)練，發(fā)現(xiàn)效果更好了。

設(shè)計(jì)路徑我們也和OpenAI撞車(chē)了兩次。一次在2021年1月，OpenAI發(fā)布了多模態(tài)模型CLIP，其實(shí)我們2020年也開(kāi)始做了，最后是2021年3月發(fā)布了多模態(tài)大模型文瀾B(tài)riVL 1.0。

當(dāng)時(shí)學(xué)界其實(shí)會(huì)很強(qiáng)調(diào)圖文數(shù)據(jù)之間的強(qiáng)相關(guān)，比如蛋糕的圖片對(duì)應(yīng)的是“蛋糕”，但人類(lèi)在理解圖片的時(shí)候，其實(shí)圖文之間的相關(guān)性是比較弱的，比如蛋糕的圖片也可以是“生日快樂(lè)”。所以當(dāng)我們把圖文之間的關(guān)系強(qiáng)調(diào)為一種弱相關(guān)，數(shù)據(jù)收集的成本就會(huì)大大降低。

這是一種思想上的突破，這點(diǎn)上我們和CLIP也是英雄所見(jiàn)略同。

另一次，就是我們?cè)?023年3月8日發(fā)布ChatImg，早于OpenAI發(fā)布GPT-4。我們兩次與OpenAI并跑，證明我們對(duì)多模態(tài)大模型的前沿方向一直有很好的眼光。

36氪：除了思想上的突破，團(tuán)隊(duì)還用了哪些“巧勁”？

盧志武：2021年3月后，我們就開(kāi)始用6億的圖文對(duì)數(shù)據(jù)和400卡的算力，但當(dāng)時(shí)其實(shí)沒(méi)有一個(gè)好用的框架支持這么大的算力。剛好微軟推出了Deep Speed框架，其實(shí)這是一個(gè)很不完善的框架，很多時(shí)候我們都是在調(diào)Bug。但是這個(gè)框架的優(yōu)勢(shì)在于能夠支持更大算力的并行，把算力的利用率提高。最后調(diào)Bug花了一個(gè)月，訓(xùn)練模型花了一個(gè)月。

我們也是國(guó)內(nèi)最早一批采用ViT（Vision Transformer）架構(gòu)的，這個(gè)架構(gòu)能夠把多模態(tài)大模型的顯存占用降下來(lái)。

產(chǎn)學(xué)，要跨過(guò)鴻溝

36氪：發(fā)布文瀾后，團(tuán)隊(duì)有立刻受到企業(yè)關(guān)注嗎？

盧志武：是有的。一家企業(yè)專(zhuān)門(mén)成立了團(tuán)隊(duì)研究文瀾，我們也和幾家企業(yè)達(dá)成了合作，幫他們研發(fā)應(yīng)用到具體場(chǎng)景的大模型。

36氪：在企業(yè)做模型和在學(xué)校會(huì)有不同嗎？

盧志武：其實(shí)對(duì)于普通教授來(lái)說(shuō)很難承受，比如我們訓(xùn)練文瀾模型時(shí)，所有學(xué)生一整年都沒(méi)發(fā)論文，因?yàn)樗腥说木Χ纪度氲酱竽Ｐ陀?xùn)練上，全是一些工程相關(guān)的事，所以沒(méi)有時(shí)間去寫(xiě)論文。

36氪：您覺(jué)得我國(guó)的AI人才儲(chǔ)備在全球范圍內(nèi)處于什么水平？

盧志武：我覺(jué)得中國(guó)人的聰明程度完全沒(méi)問(wèn)題，只是說(shuō)還是有一些系統(tǒng)上的難題，比如高校老師做大模型，就要在一定程度上放棄論文考核，頂住壓力。

36氪：現(xiàn)在團(tuán)隊(duì)做成果轉(zhuǎn)化是以人大高瓴學(xué)院為主要單位嗎？

盧志武：其實(shí)會(huì)考慮兩方面。一方面，模型訓(xùn)練仍然放在人大，因?yàn)樵谫Y源的爭(zhēng)取上能夠有更多的機(jī)會(huì)。但是從落地的角度而言，只能依靠企業(yè)形態(tài)，我們的開(kāi)源研究成果也在學(xué)生高一釗成立的公司“智子引擎”進(jìn)行一些商業(yè)化的落地。但光靠公司，又很難申請(qǐng)到相應(yīng)的研究資源。

36氪：會(huì)有企業(yè)向您拋來(lái)橄欖枝嗎？

盧志武：也會(huì)有。但我們作為學(xué)者，還是希望能夠獨(dú)立，自己去決定研究方向。

36氪：大模型的發(fā)展不是線性的，那是不是意味著我們有機(jī)會(huì)超越OpenAI？

盧志武：至少在多模態(tài)上，我覺(jué)得很有可能。目前OpenAI的GPT-4在多模態(tài)的理解和生成上還沒(méi)有給出一個(gè)完美的解決方案。OpenAI在語(yǔ)言上做的太好了，但也會(huì)形成路徑依賴(lài)，轉(zhuǎn)向多模態(tài)并不是那么容易。

36kr制圖

關(guān)鍵詞：

責(zé)任編輯：FD31

上一篇：GPT-4蘇醒，AI要「殺」人？Hinton、ChatGPT之父預(yù)警，LeCun怒懟：不如我家狗-全球快看點(diǎn)

下一篇：最后一頁(yè)