伊人久久大香线蕉avapp下载-97久久伊人精品影院-伊人三区-亚洲伊人久久大香线蕉综合图片-中文字幕美日韩在线高清-中文字幕伦理聚合第一页

“文瀾B(tài)riVL”模型設(shè)計(jì)者、人大教授盧志武:多模態(tài)大模型,我國(guó)彎道超車(chē)的可能性很大 | 36氪專(zhuān)訪

來(lái)源:36kr時(shí)間:2023-03-28 13:58:01

采訪 | 周鑫雨、蘇建勛、楊軒

文| 周鑫雨

編輯| 蘇建勛


【資料圖】

想過(guò)河,但連一塊石頭都摸不著。這是2020年盧志武和中國(guó)人民大學(xué)高瓴人工智能學(xué)院團(tuán)隊(duì)自研多模態(tài)大模型時(shí)遇到的困境。

彼時(shí),GPT-3已經(jīng)發(fā)布,國(guó)內(nèi)NLP(自然語(yǔ)言處理)領(lǐng)域的研究已逐漸形成規(guī)模。但將涉及領(lǐng)域從文字?jǐn)U展到圖像、視頻的多模態(tài)大模型,依然幾近“無(wú)人區(qū)”。

在一年多的時(shí)間里,團(tuán)隊(duì)做了許多“前無(wú)古人”的嘗試。比如在2021年初,率先采用微軟新推出的Deep Speed框架來(lái)支持幾十億參數(shù)模型的訓(xùn)練。在資源稀缺的情況下,“巧勁”也是必須的——為了減少顯存占用,團(tuán)隊(duì)嘗試性地采用了ViT(VisionTransformer)架構(gòu),還在自監(jiān)督訓(xùn)練中采取了較小的Batch(分批處理)而不降低效果。

2021年3月,團(tuán)隊(duì)的無(wú)人區(qū)探索有了初步的成果:多模態(tài)大模型“文瀾B(tài)riVL 1.0(Bridging-Vision-and-Language 1.0)”,后續(xù)還發(fā)布了 “文瀾B(tài)riVL 2.0”。兩年后,2023年3月8日,盧志武團(tuán)隊(duì)借鑒文瀾的研究經(jīng)驗(yàn),自主研發(fā)了多模態(tài)對(duì)話(huà)大模型,并落地了第一款應(yīng)用級(jí)多模態(tài)ChatGPT產(chǎn)品:“元乘象 ChatImg”。

“元乘象 ChatImg”好比是“會(huì)看圖的ChatGPT”。據(jù)盧志武介紹,基于多模態(tài)融合模塊和語(yǔ)言解碼器,目前Chatlmg參數(shù)規(guī)模大概為150億。用戶(hù)輸入一張圖片,Chatlmg就能對(duì)其中的內(nèi)容進(jìn)行解讀,并繼續(xù)相關(guān)的對(duì)話(huà)。

元乘象 ChatImg圖文交互演示。

從艱難穿越無(wú)人區(qū)到落地應(yīng)用,盧志武認(rèn)為,中國(guó)AI模型研究者不僅要精于技術(shù),也要敢于擁抱新技術(shù)。同時(shí),學(xué)者們也要認(rèn)識(shí)到,從研究走向落地,仍需要跨過(guò)一些鴻溝。

以下是36氪和盧志武的對(duì)話(huà):

穿越無(wú)人區(qū)

36氪:您為什么在3月8日這個(gè)時(shí)間點(diǎn)推出多模態(tài)大模型產(chǎn)品ChatImg?

盧志武:去年11月30日ChatGPT推出后,各方測(cè)評(píng)后都發(fā)現(xiàn)了現(xiàn)有研究范式將面臨嚴(yán)峻的挑戰(zhàn)。之前的NLP研究都是針對(duì)單任務(wù)去訓(xùn)練小模型,比如翻譯、實(shí)體識(shí)別、情感分析等。但是ChatGPT出現(xiàn)后,一個(gè)大模型就可以完成所有的任務(wù)。所以,單獨(dú)對(duì)每個(gè)任務(wù)進(jìn)行研究失去了意義。

ChatGPT的發(fā)布對(duì)多模態(tài)方向的沖擊相對(duì)少一點(diǎn),畢竟ChatGPT的強(qiáng)項(xiàng)是在文本處理。但是當(dāng)時(shí)我們也聽(tīng)到一些關(guān)于GPT-4想要做多模態(tài)的風(fēng)聲,因此也特別著急。所以團(tuán)隊(duì)趕緊用了大概2個(gè)月的時(shí)間去訓(xùn)練ChatImg,在3月8日這個(gè)時(shí)間點(diǎn)推出,比GPT-4和百度的文心一言更早。

36氪:按任務(wù)劃分研究方向的模式是如何誕生的?

盧志武:NLP的研究其實(shí)有很長(zhǎng)的歷史,針對(duì)不同的細(xì)分領(lǐng)域,比如情感分析、實(shí)體識(shí)別、翻譯,大家想的都是分開(kāi)每個(gè)老師自己做,沒(méi)有想過(guò)用一個(gè)方法把任務(wù)一統(tǒng)天下。

2020年GPT-3出來(lái)的時(shí)候,其實(shí)有點(diǎn)出乎大家的意料,用一個(gè)大模型就可以做多個(gè)任務(wù)。但是當(dāng)時(shí)GPT-3的效果還沒(méi)那么好,所以大家也沒(méi)有重視。

36氪:研究方向的差異會(huì)造成研究方法的不同嗎?

盧志武:差別太大了。比如說(shuō)單獨(dú)做翻譯任務(wù),我們只要專(zhuān)門(mén)去收集翻譯數(shù)據(jù),訓(xùn)練一個(gè)小模型,絕大部分高效的研究人員都能做這件事。但是大語(yǔ)言模型需要很多數(shù)據(jù)和算力,一般高校的老師就做不了,基本上被大廠壟斷了。

36氪:在2020年GPT-3出來(lái)后,國(guó)內(nèi)會(huì)不會(huì)有研究人員想做大模型,但是由于您剛才說(shuō)的數(shù)據(jù)和算力等資源的限制無(wú)法做?

盧志武:其實(shí)2020年的時(shí)候,國(guó)內(nèi)一些研究者已經(jīng)意識(shí)到大模型的重要性,比如我們開(kāi)始做多模態(tài)大模型,以及智源研究院的唐杰和劉知遠(yuǎn)教授,是國(guó)內(nèi)最早做自然語(yǔ)言大模型的一批。

但國(guó)內(nèi)主要缺的是算力,當(dāng)然高質(zhì)量數(shù)據(jù)也是一個(gè)難點(diǎn)。另外,在模型商業(yè)落地的過(guò)程當(dāng)中,由于模型本身很大,推理過(guò)程消耗的算力就很多,成本太高了,可能要幾十張卡才能部署起來(lái),根本沒(méi)法落地。所以2020年的時(shí)候大家做的基本是純學(xué)術(shù)研究。

36氪:2020年的時(shí)候,團(tuán)隊(duì)和智源研究院合作,對(duì)方主要提供的也是算力資源?

盧志武:是的。大概在2021年初,我們組做文瀾訓(xùn)練的過(guò)程中,最多的時(shí)候用了約400塊A100,最后在算力上都花了3000萬(wàn)元。

36氪:在模型研發(fā)過(guò)程中團(tuán)隊(duì)還遇到過(guò)哪些困難?

盧志武:當(dāng)時(shí)我們是國(guó)內(nèi)最早一批做多模態(tài)大模型的,沒(méi)有人告訴你怎么走,連模型怎么設(shè)計(jì)都不知道。最后我們用了大概半年的時(shí)間定了一個(gè)方案,慢慢用一小部分?jǐn)?shù)據(jù)去測(cè)試,發(fā)現(xiàn)效果不錯(cuò),就拿更大體量的數(shù)據(jù)去測(cè)試,最后直接上了6億數(shù)據(jù)去訓(xùn)練,發(fā)現(xiàn)效果更好了。

設(shè)計(jì)路徑我們也和OpenAI撞車(chē)了兩次。一次在2021年1月,OpenAI發(fā)布了多模態(tài)模型CLIP,其實(shí)我們2020年也開(kāi)始做了,最后是2021年3月發(fā)布了多模態(tài)大模型文瀾B(tài)riVL 1.0。

當(dāng)時(shí)學(xué)界其實(shí)會(huì)很強(qiáng)調(diào)圖文數(shù)據(jù)之間的強(qiáng)相關(guān),比如蛋糕的圖片對(duì)應(yīng)的是“蛋糕”,但人類(lèi)在理解圖片的時(shí)候,其實(shí)圖文之間的相關(guān)性是比較弱的,比如蛋糕的圖片也可以是“生日快樂(lè)”。所以當(dāng)我們把圖文之間的關(guān)系強(qiáng)調(diào)為一種弱相關(guān),數(shù)據(jù)收集的成本就會(huì)大大降低。

這是一種思想上的突破,這點(diǎn)上我們和CLIP也是英雄所見(jiàn)略同。

另一次,就是我們?cè)?023年3月8日發(fā)布ChatImg,早于OpenAI發(fā)布GPT-4。我們兩次與OpenAI并跑,證明我們對(duì)多模態(tài)大模型的前沿方向一直有很好的眼光。

36氪:除了思想上的突破,團(tuán)隊(duì)還用了哪些“巧勁”?

盧志武:2021年3月后,我們就開(kāi)始用6億的圖文對(duì)數(shù)據(jù)和400卡的算力,但當(dāng)時(shí)其實(shí)沒(méi)有一個(gè)好用的框架支持這么大的算力。剛好微軟推出了Deep Speed框架,其實(shí)這是一個(gè)很不完善的框架,很多時(shí)候我們都是在調(diào)Bug。但是這個(gè)框架的優(yōu)勢(shì)在于能夠支持更大算力的并行,把算力的利用率提高。最后調(diào)Bug花了一個(gè)月,訓(xùn)練模型花了一個(gè)月。

我們也是國(guó)內(nèi)最早一批采用ViT(Vision Transformer)架構(gòu)的,這個(gè)架構(gòu)能夠把多模態(tài)大模型的顯存占用降下來(lái)。

產(chǎn)學(xué),要跨過(guò)鴻溝

36氪:發(fā)布文瀾后,團(tuán)隊(duì)有立刻受到企業(yè)關(guān)注嗎?

盧志武:是有的。一家企業(yè)專(zhuān)門(mén)成立了團(tuán)隊(duì)研究文瀾,我們也和幾家企業(yè)達(dá)成了合作,幫他們研發(fā)應(yīng)用到具體場(chǎng)景的大模型。

36氪:在企業(yè)做模型和在學(xué)校會(huì)有不同嗎?

盧志武:其實(shí)對(duì)于普通教授來(lái)說(shuō)很難承受,比如我們訓(xùn)練文瀾模型時(shí),所有學(xué)生一整年都沒(méi)發(fā)論文,因?yàn)樗腥说木Χ纪度氲酱竽P陀?xùn)練上,全是一些工程相關(guān)的事,所以沒(méi)有時(shí)間去寫(xiě)論文。

36氪:您覺(jué)得我國(guó)的AI人才儲(chǔ)備在全球范圍內(nèi)處于什么水平?

盧志武:我覺(jué)得中國(guó)人的聰明程度完全沒(méi)問(wèn)題,只是說(shuō)還是有一些系統(tǒng)上的難題,比如高校老師做大模型,就要在一定程度上放棄論文考核,頂住壓力。

36氪:現(xiàn)在團(tuán)隊(duì)做成果轉(zhuǎn)化是以人大高瓴學(xué)院為主要單位嗎?

盧志武:其實(shí)會(huì)考慮兩方面。一方面,模型訓(xùn)練仍然放在人大,因?yàn)樵谫Y源的爭(zhēng)取上能夠有更多的機(jī)會(huì)。但是從落地的角度而言,只能依靠企業(yè)形態(tài),我們的開(kāi)源研究成果也在學(xué)生高一釗成立的公司“智子引擎”進(jìn)行一些商業(yè)化的落地。但光靠公司,又很難申請(qǐng)到相應(yīng)的研究資源。

36氪:會(huì)有企業(yè)向您拋來(lái)橄欖枝嗎?

盧志武:也會(huì)有。但我們作為學(xué)者,還是希望能夠獨(dú)立,自己去決定研究方向。

36氪:大模型的發(fā)展不是線性的,那是不是意味著我們有機(jī)會(huì)超越OpenAI?

盧志武:至少在多模態(tài)上,我覺(jué)得很有可能。目前OpenAI的GPT-4在多模態(tài)的理解和生成上還沒(méi)有給出一個(gè)完美的解決方案。OpenAI在語(yǔ)言上做的太好了,但也會(huì)形成路徑依賴(lài),轉(zhuǎn)向多模態(tài)并不是那么容易。

36kr制圖

關(guān)鍵詞:

責(zé)任編輯:FD31
上一篇:GPT-4蘇醒,AI要「殺」人?Hinton、ChatGPT之父預(yù)警,LeCun怒懟:不如我家狗-全球快看點(diǎn)
下一篇:最后一頁(yè)
主站蜘蛛池模板: 国产四虎精品| 久久精品人人做人人爽电影蜜月| 女人18片毛片60分钟| 久久综合九色综合97欧美| 自拍欧美亚洲| 三级黄色片在线观看| 水蜜桃免费视频| www成人在线观看| 亚洲天堂中文字幕| 亚洲精品国产精品国自产观看| 特a级片| 韩国黄色网址| 好爽快点使劲深点好紧视频 | 免费三级黄| 一级伦理电线在2019| 国产精品扒开做爽爽爽的视频| 乱日视频| 国产日韩美国成人| 成人韩免费网站| 国产经典一区二区三区蜜芽| 国产色综合天天综合网| 免费日b视频| 天天操天天爱天天干| 8x在线播放| 欧美综合自拍亚洲综合图片区| 日韩福利影院| 亚洲理论精品午夜电影| 国产一级特黄高清免费下载| 亚洲小说区图片区另类春色| 乱人伦中文字幕电影| 天堂影院www陈冠希张柏芝| 欧美亚洲国产日韩综合在线播放 | 2021日本三级理论影院| 国产精品一区二区在线观看| 香港三级理论在线影院| 久久久久亚洲精品影视| 波多野结衣三人蕾丝边| 国产捆绑调教| 视频一区在线| 老头一天弄了校花4次| 亚洲一级毛片免费观看|