伊人久久大香线蕉avapp下载-97久久伊人精品影院-伊人三区-亚洲伊人久久大香线蕉综合图片-中文字幕美日韩在线高清-中文字幕伦理聚合第一页

百度文心一言評測:與真正的“對話式AI”還有很長距離

來源:36kr時間:2023-03-17 19:51:14

3月16日下午,百度召開文心一言發布會,當天晚間,界面新聞拿到了這款大語言模型的測試邀請碼,并進行了大量測試。

整體來看,百度這次略顯匆忙推出的文心一言仍處于非常初級的階段,跟“生產力”基本不搭邊。無論是語義理解、持續對話、文生圖還是數理推理能力,都處于比較死板的狀態。

也就是說用戶需要按照特定的提問方式,才能獲得合格答案。它基本不允許用戶自由對話,與真正的“對話式AI”還有很長距離,更像普通的搜索引擎產品,只是省略了用戶自行篩選搜索答案的過程。


(資料圖片僅供參考)

具體來說,文心一言面對單輪、簡單問題時,能夠直接給出答案。尤其是那些在百度搜索上能搜到的問題,文心一言會選取搜索引擎內容給予回答(并不保證正確性),在形式上做到了有問有答。

但進入多輪對話之后,文心一言的表現有明顯下滑,經常“前言不搭后語”。當你對它的答案不滿意,要求修訂之后,文心一言經常會機械的承認錯誤,然后給出相同的錯誤答案。

百度在發布會上表示,本次發布的文心一言1.0版本包含文學創作、商業文案創作、數理邏輯推算、中文理解和多模態生成能力。

在界面新聞的測試中,這款產品的數理邏輯推算能力比較基礎,面對復雜描述、需要邏輯理解的問題或者錯誤問題時,文心一言經常給出錯誤答案,并且不會糾正錯誤的問題。同時,該產品文生圖的能力也有待加強,畫風較為單一,無法根據用戶的典型標簽需求進行調整,甚至經常錯誤理解一些簡單的標簽。

與ChatGPT表現出的“烏鴉智能”(全球知名計算機視覺專家朱松純教授曾說過烏鴉和鸚鵡的比喻,烏鴉具有“理解”能力,而鸚鵡的問答方式是“鸚鵡學舌”)相比,目前文心一言還停留在模仿階段。

雖然李彥宏在發布會上將文心一言與ChatGPT直接對標,甚至對標GPT-4,但從實際體驗來看,百度與微軟(Open AI)的這兩款產品差距極大,并不成稱之為對手或者競品。

李彥宏和王海峰也都在發布會現場承認,文心一言(1.0版本)在本次內測發布之前,并沒有經過太多訓練,未來需要很長時間的迭代。李彥宏主動提及,百度之所以這么快推出類ChatGPT產品,是因為內部業務團隊和客戶有需求。

或許是考慮到訓練成本和產品成熟度問題,百度控制了本次測試的人員規模,未來文心一言的迭代效果如何,界面新聞會繼續保持關注。

以下是部分測試的截圖:

一、首先,提出簡單的問題:《原神》和《王者榮耀》哪一個更受歡迎?

從結果來看,文心一言抓取了網絡上的錯誤信息。首先,《王者榮耀》并沒有超過51%的收入來自于中國以外的市場;其次,《王者榮耀》單款游戲第四季度收入48億美元的信息也是錯誤的。此外,在答案格式上,文心一言還錯誤使用了“《》“。

我們點擊“重新生成”按鈕,希望文心一言再次回答,第二次的答案基本令人滿意:

我們并沒有就此停止,再次點擊“重新生成”,新的答復如下:

答案引用的是2021年的舊數據,且數據本身存在不少問題。回答的內容也并不令人信服。

在另一個類似的話題結構上,文心一言的答案出現了重大失誤:

上面這段答案里,錯誤不僅是劃線的兩處。這應該是文心一言在百度頁面上抓取了一篇虛假內容所導致的。

在這里能明顯反映出一個問題,那就是內容源的污染,會直接影響對話式AI產品的輸出結果。

而有經驗的網民都知道,目前在百度搜索的結果中充斥著大量不實信息和內容,如何避免它們污染文心一言大語言模型,無疑是百度在未來需要重點解決的問題之一。

據界面新聞了解,文心一言的數據來源是百度的自有生態,也就意味著它無法抓取各大app的內容。所以,移動時代的信息孤島效應,也制約著文心一言后期的迭代效果。

再看另一個測試。發布會當天,百度的股價有明顯下跌,我們向文心一言提出問題:

在涉及股價波動的問題上,它的回答基本符合預期。

二、在數理推算能力上,界面新聞向它提出了一個經典問題,并在其中去掉了一個重要條件,文心一言并未反應過來,同時給出了錯誤答案:

因為題干中缺少相對距離,并不能得出任何時間結果。文心一言給出的運算過程也完全錯誤。

在另一道基礎數學題上,文心一言的表現不錯:

在一個腦筋急轉彎性質的數學題上,文心一言抓取了百度搜索頁面的結果:

這也印證了,百度生態內部內容源的質量,能直接決定文心一言的回答質量。如何防止內容源被污染,尤為關鍵。

三、對于另一個頗受外界關注的文生圖能力,界面新聞也做了不少測試,發現了一些問題。比如我們先是提出了一個簡單需求:做一張天空的圖片。

從結果來看,文心一言給出了天空+小孩的圖片。在標簽比較簡單的時候,它生成的圖片內容反而比較復雜,精準度并不高。

再看另一組文生圖測試,標簽為四組簡單詞匯,圖片內容缺少兩個元素。

繼續展開第二輪對話,因為目前文心一言不支持修改原圖,所以我們提出需求“重新畫一張”,結果如下:

這是一個完全錯誤的答案。在多次測試中界面新聞發現,一旦對話進入多輪狀態,文心一言通常會表現出力不從心的狀態,無法正確理解上下文語意,再比如下面這次測試:

此外,我們還在測試中還發現,文心一樣并不能準確的理解中文語意,有時理解能力甚至不如百度自家的搜索引擎,我們提出了下面的需求:

文心一樣將“網紅”理解為“紅”(紅色),對中文語意的理解本應該成為百度的優勢。在這里放出百度搜索引擎的理解:

可以看出百度搜索對用戶中文語意的理解能力明顯正常很多。

四、在文學創作能力上,我們要求它模仿金庸和JK羅琳的風格,寫一段孫悟空的故事,回答如下:

但就文本內容而言,是一段成形的故事。但兩次回答的內容一字不差,可見文心一言目前做不到更深層次的文學內容理解,所以無法分辨金庸和JK羅琳的風格區別,只是將同一個模板反復套用。

考慮到它只是1.0內測版本的大語言模型,這些可以理解。

在文心一言的文案創作能力上,我們對它提出做一份《原神》和《王者榮耀》聯動的宣傳文案,答復如下:

我們得到了一篇比較簡短標準的官方公告。鑒于我們在問題上并未給出更多限制條件,所以文案的內容也比較簡單。

當我們提出要求其創作一首歌曲,名字為《只因你太美》,答復如下:

我們也讓文心一言創作一篇論文,效果如下:

說實話,如果哪個大學生拿這篇論文交給老師,應該會被判不及格。北京某211大學教授新聞傳播課程的教師對該結果的評價是:車轱轆話。

對于網絡上很多用戶喜歡的調戲式問題,我們也給文心一言準備了一些。比如下面這段完整的內容:

總體來看,如果是抱著尋求解放生產力的目的使用文心一言,那至少這個1.0版本是不合格的。如果對它抱有“未來可期”的態度,那可以繼續關注百度在接下來的時間內對該產品的更新迭代。

眾所周知,對大模型的投入需要克服巨大的資金和資源壓力,同時也面臨著商業化場景稀缺的現狀,百度能否始終如一的堅持下去也值得關注。

就在今日,微軟舉辦了一場AI發布會,宣布將推出名為Copilot的人工智能服務,它由OpenAI最新推出的GPT-4模型驅動。微軟表示,它將適用于Word、PowerPoint、Excel、Outlook這些Microsoft 365商業軟件,幫助用戶生成文檔、電子郵件以及幻燈片等。

如果微軟最終將該產品大規模落地,那無疑是對生成式AI賽道的一劑強心劑,也遙遙領先于其它競爭對手,這個領域內的商業競爭才剛剛起步。

關鍵詞:

責任編輯:FD31
上一篇:汽車圈“卷王”又來了,比亞迪漢、唐雙旗艦冠軍版增配降價|當前最新
下一篇:最后一頁
主站蜘蛛池模板: 波多野结衣电影一区二区 | 特级毛片aaaaaa蜜桃| 桃花影院www视频播放| 国产成人综合久久亚洲精品| 国产精品国产精品国产专区不卡| 精品一区二区三区在线视频| 91蜜桃在线观看| 亚洲大香人伊一本线| 在线观看国产三级| 欧美性视频18~19| 麻豆porno| 欧洲美女与动性zozozo| 搞av.com| 四虎成人精品免费影院| 午夜久| 国产白丝在线观看| 久久久久久久久国产| 扒开双腿猛进入免费观看美女| 欧美日韩电影在线观看| 国产高清吃奶成免费视频网站| а√最新版在线天堂| 老子午夜伦不卡影院| 动漫痴汉电车1~6集在线| 精品一区二区三区免费视频| 国产福利精品一区二区| 日韩国产成人精品视频| 久久噜噜噜久久亚洲va久| 麻豆女神吴梦梦| 久久久久久久性潮| 调教在线观看| 久草福利资源在线观看| 一本热久久sm色国产| 果冻传媒麻豆影视在线观看免费版| 狠狠干2022| 久久亚洲私人国产精品va| 处处吻动漫高清在线观看 | 波多野结衣作品大全| 国产一级电影在线观看| 九九久久99综合一区二区| 欧美三级免费| 九九九精品视频免费|