神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:OpenAI最近搞了一個大東西,能夠根據文字創作圖像的DALLE 2。從網上放出來的一些例子來看,效果相當震撼,有些甚至抓住了文字的靈魂。那么這樣一個AI具備什么意義呢?知名科技博主分析了不同形式的內容創作手段存在的共同演變模式,并總結出相應的經濟影響,認為這種AI將為元宇宙的未來賦予經濟性。當虛擬世界可以用近乎零成本去創作完全可以針對個人定制的虛擬內容時,互聯網的未來將距離我們更近,卻也會變得更奇怪了。文章來自編譯。
劃重點:
游戲處在技術發展的前沿,引領了從文本到圖像到視頻到3D的進步
社交網絡經歷了與游戲類似的媒介演變,但時間推遲了二十年
TicTok的零成本的UGC+純算法調度的動態內容具有網絡效應
DALL-E 2提供的零成本內容為元宇宙未來提供了經濟性
上周,OpenAI發布了文字生成圖像工具 DALL-E 2(DALL-E來自藝術家“Dalí”和機器人“WALL-E”的結合詞);來自@BecomingCritter的這條推特帖子上面展示了大量生成的示例,其中包括這條“泰迪熊在 1980 年代在月球上展開新的人工智能的研究”:
在 1980 年代的月球上致力于新 AI 研究的泰迪熊
文字“一張古色古香的花店的店面照片,潔白的門面綠意盎然,大門敞開,還有一扇大窗戶”生成的圖像:
一張古色古香的花店的店面照片,潔白的門面綠意盎然,大門敞開,還有一扇大窗戶
不過,最恰如其分的是這張,“一個沐浴在 AGI 烏托邦陽光之下的人類”:
一個沐浴在AGI烏托邦陽光之下的人類
OpenAI在其網站上有一段描述 DALL-E 的視頻。盡管OpenAI的宣傳視頻的確也提到了 DALL-E 的一些缺點,但對其可能性仍然十分樂觀。里面的一些摘錄:
Dall -E 2 是出自OpenAI的一套新的 AI 系統,它可以將簡單的文本描述(如“考拉扣籃”)轉化為此前從未出現過的逼真圖像。 DALL-E 2 還可以對照片進行編輯和潤飾,效果十分逼真……
DALL-E 是通過訓練基于圖像及其文本描述的神經網絡而創建出來的。通過深度學習,它不僅可以理解像考拉熊以及摩托車這樣的單個對象,還可以學習對象之間的關系,當你要求 DALL-E 生成“騎摩托車的考拉”的圖像時,它知道如何創建這樣一幅圖片,或者與任何其他對象或動作有關系的圖片。
DALL-E 研究有三個主要成果:首先,它可以幫助人們用可視化的方式表達自己,這是前所未有的。其次,人工智能生成的圖像可以告訴我們很多信息,讓我們知道系統是否理解我們,或者只是在重復教過它的內容。第三,DALL-E 可以幫助人類了解人工智能系統如何看待和理解我們的世界。這是開發有用且安全的人工智能的關鍵部分……
用于訓練 DALL-E 的方法令人興奮之處在于,它可以從其他各種打過標簽的圖像那里學習,然后將其應用到新圖像上面。給它一張猴子的照片,DALL-E 就可以推斷出它在做一些以前從未做過的事情時會是什么樣子的,比如猴子戴著一頂有趣的帽子在納稅的樣子。富有想象力的人類和有聰明才智加持的系統,人機協同工作如何可以創造新事物,放大我們的創造潛力?DALL-E 就是一個有力的例子。
人機協同這句話可能會引起一些人的質疑:乍看之下,DALL-E 與藝術家和插畫家好像是競爭的關系;不過,還有另一種觀點,DALL-E 指向了元宇宙未來的一個重大缺失部分。
長期以來,游戲一直處在技術發展的前沿,就媒體而言,情況當然是這樣的。最早的電腦游戲只不過是文字罷了:
《俄勒岡之路》游戲截圖
緊隨其后的是圖像游戲,一般是位圖類型的;我記得在圖書館玩過很多次《神偷卡門》(Where in the world is Carmen San Diego)這款游戲:
很快,游戲就開始引入動作,你可以在 2D 世界里面給精靈指路;緊接著3D 也出現了,在過去 25 年大部分的時間里,我們一直在致力于讓 3D 游戲變得更加逼真。然而,幾乎所有這些游戲都是 2D 屏幕上投射的 3D 圖像。虛擬現實提供了我們置身于游戲之中的錯覺。
盡管如此,這種演變也面臨著挑戰:創建更逼真的 3D 游戲,意味著要創建出更逼真的圖像紋理來粉飾所有這些多邊形;在虛擬現實的環境下,這個問題只會被放大。這也是即便是開放世界游戲在范圍上最終也會受到限制的原因之一,而那種游戲玩法在很大程度上是具有確定性的:通過了解你要去哪里以及到達那里的所有選項,開發人員可以提前創建所有必要的資產,以提供身臨其境的體驗。
這并不是說除了程序生成的Roguelike(是角色扮演游戲的一個分支類型,它以一系列隨機生成關卡的地牢、回合制戰斗、基于磁貼的圖像和角色永久死亡為特點)游戲以外,游戲就不能有隨機元素:提供不可預測性要素最顯而易見的一種方式是讓人類之間對玩,盡管這是在定義明確和受控的環境下進行的。
社交網絡經歷了與游戲類似的媒介演變,但時間推遲了二十年。 Web 上最早的社交網絡形式是文字型的公告板以及用戶組(USENET)。后來,電子郵件、AOL聊天室以及論壇開始普及。 Facebook 是在 2000 年代中期的時候出現的。它之所以大受歡迎,有一點是因為增加了圖像這種元素。 Instagram是一個只有圖片的社交網絡,但很快又添加了視頻,而視頻則是TikTok的全部。現在,尤其是在過去這幾年里,通過 Zoom 或Facetime 等 app 召開的視頻會議已經開始在 2D 屏幕上提供 3D 圖像。
盡管如此,媒體對于社交網絡的重要性一直都比較低,這只是因為它的社交部分天生就很有趣了。人類喜歡與其他人交流,即便這需要撥號到隨便某個 BBS, 下載消息、撰寫回復,然后再撥回去發送消息。游戲也許基本上是具有確定性的,但人類充滿了驚喜。
此外,這意味著社交網絡要便宜得多:平臺不需要自己生成所有的內容,而是由用戶自己生成所有內容。這導致新平臺更難崛起,因為你需要用戶來吸引用戶,但這也使得此類平臺比任何游戲都更具粘性(或者,換句話說,最具粘性的游戲本身就具備網絡效應)。
除了時間以外,社交網絡的第一次迭代并沒有特定的算法組件:較新的帖子位于頂部(或底部)。隨著 Facebook 在 2006 年推出了動態消息(News Feed),情況開始發生變化。現在,你不再需要訪問所有朋友的頁面,只需瀏覽動態消息就行,它從一開始就決定了要包含哪些內容,以及按照什么樣的順序呈現。
隨著時間的推移,動態消息從一種相對簡單的算法演變為由機器學習驅動的算法,其結果令人費解,以至于 Facebook 用了六個月的時間才修復好最近的一個排名錯誤。其影響十分巨大:隨著算法驅動的動態消息變得更好,不僅是 Facebook,就連 Instagram的參與度與增長速度都出現了大幅增長;動態消息還非常適合貨幣化,因為決定你看到的內容的同一類信號也會影響到向你展示的廣告。
然而,之所以不把算法驅動的動態消息與社交網絡放在同一個章節討論,是因為顯示其的力量的終極例子根本不是社交網絡:而是TikTok 。當然, TikTok全都是用戶生成的內容,但它與 Facebook 的關鍵區別在于,內容不受限于你的關系網絡: TikTok從整個網絡提取它認為你最感興趣的視頻。我在2020年時解釋了為什么這是Facebook的盲點:
有趣的是,Facebook錯過這個是不可避免的,原因在于:首先,Facebook 把自己看作是一個社交網絡,所以它不愿意將其視為一種責任。其次,Facebook 對待Snapchat的方式強化了這種觀點。我那篇文章的重點是 Facebook 利用Instagram 的社交網絡來阻止Snapchat 的增長,這只會強化“網絡是 Facebook 最大的資產”這一點,而使得TikTok 這個盲點變得越來越大。
TikTok把兩個東西結合在了一起,一是具備零成本特性的用戶生成內容,二是與網絡分離的純算法的動態內容;這種結合具有網絡效應,因為TikTok需要很多內容供自己選擇,但它不需要特定的網絡。
我知道,元宇宙太 2021 了,但令我震驚的是,科幻小說里面的例子,包括《雪崩》以及《頭號玩家》等,在實現上其實非常像游戲。他們的虛擬世界是由有遠見的公司創建的,或者是由一位有遠見的開發者創建的,他也會開發一個爭奪虛擬世界最終所有權的確定性游戲。是,第三方可以而且確實建立了具有強大社交組件的體驗,最著名的是《雪崩》里面 Da5id的黑色太陽俱樂部(Black Sun club),但它的核心機制,以及核心經濟,更接近多人游戲,比任何其他東西都要接近。
不過,這一點在現實世界里面極具挑戰性:請記住,游戲開發非常耗錢,游戲的藝術創作尤其昂貴,而且成本越高,沉浸感體驗越強。另一方面,社交媒體很便宜,因為它用的是用戶生成的內容,但這些內容一般都體現在更基本的媒體上,如文本、圖片之類,視頻也是最近才出現的。當然,內容未必就得限制在你的網絡里面——算法可以將網絡上的任何內容呈現給任何用戶。
DALL-E 的迷人之處在于它指向了一個可以將這三種趨勢結合起來的未來。歸根結底,DALL-E 最終是人類生成內容的產物,就像它的表親 GPT-3一樣。當然了,后者是做文本生成,而 DALL-E 是圖像生成的。但請注意,這是從文本邁進到了圖像;接下來就會有機器學習生成的視頻。當然,這可能需要幾年的時間;視頻這個問題會更加困難,而響應式的 3D 環境則是難上加難,但這就是這個行業以前走過的道路:
游戲開發者突破了文本的限制,然后是圖像,然后是視頻,然后到 3D
社交媒體先是將文本內容創作的成本降到0,然后是圖像,然后到視頻
機器學習模型現在可以用零邊際成本創建文本和圖像
從長遠來看,這指向的是這樣一個元宇宙愿景,它的確定性要比典型的視頻游戲低得多,但在生成內容的豐富性方面又比社交媒體豐富得多。想象一下,一個不是由藝術家繪制而是由人工智能創造出來的環境:這不僅增加了可能性,而且至關重要的是,降低了成本。
我們還可以換一種方式來思考 DALL-E 和 GPT 以及類似的機器學習模型,這可以追溯到我一直以來主張的一個觀點,即互聯網是一種只有印刷機才能匹配的變革性技術。后者的革命性在于它大大降低了消費的邊際成本。以下內容來自《互聯網與第三階級》:
與此同時,印書的經濟性與手工抄寫的經濟性有著根本上的不同。后者純粹屬于運營費用:產出完全要取決于勞動力的投入。反過來,前者主要是資本支出:首先,你得造印刷機,其次,給一本書設置好活字。這些重大的前期費用最好的支付方式,是一本書要做出盡可能多的副本以供出售。
那么,怎么才能以最大限度地增加可以出售的副本數量呢?答案是用特定語言使用最廣泛的方言來印刷,這反過來又會激勵大家采用這種方言,從而在歐洲范圍內對這種語言進行標準化。相應地,這又會加深使用共同語言的城邦國家之間的親和力,尤其是在數十年的時間里圍繞著書籍以及后來的報紙形成了共同文化。這種合并的發生速度各異,英格蘭和法國比德國和意大利早了幾百年,但幾乎在所有情況下,第一等級都不是天主教會的神職人員,而是國家君主,即便這些君主將權力讓渡給以伯克為典型代表的一種新型的貴族精英。
互聯網產生了兩個影響:一是讓消費的邊際成本降到了零。即使是用印刷機,仍然需要打印實物并分發出去,這需要花錢;與此同時,把你現在看到的這篇文章發送給全世界任何一位感興趣的人其實是不用花錢的。這徹底顛覆了出版業,摧毀了看門人的力量。
不過,另一個影響發生在供給側。我在 Mistakes and Memes 中寫過關于TikTok的文章:
“Facebook吸引人之處也可能是因為它呈現出來的內容本身,至于是誰呈現的并不重要”這句話其實也可以用來描述TikTok。這句話描述Tiktok錯在后者的吸引力在于它呈現的內容,至于是誰創建的并不重要……換句話說,我太過專注需求了(這是聚合理論的關鍵),所以對供給側的演變沒有予以足夠的思考。用戶生成內容未必就只能是阿貓阿狗的圖片以及某人關系網絡內的人的政治抱怨。它還可能是一種新型網絡的基礎——在這種網絡里面,梅特卡夫定律的結果不在于任何一個節點可用的連接數,而在于定制化到動態消息的輸入數量。
機器學習生成內容就是TikTok之后的下一步:GPT 和 DALL-E 以及其他類似模型不是從網絡上的任何地方去獲取內容,而是以零邊際成本用內容生成新的內容。這就是元宇宙的經濟學最終將行得通之處:虛擬世界需要以近乎零成本去創作完全可以針對個人定制的虛擬內容。
當然,DALL-E 還向我們提出了許多其他問題,其中很多屬于哲學上的問題。上周大家對這個話題已經進行了很多討論,而且未來應該還會有更多的討論。盡管如此,它的經濟影響也很重要,在上周DALL-E發布之后,互聯網的未來距離我們比以往任何時候都更接近,也更奇怪了。
譯者:boxi。