無痕 PS、讀得懂文字，OpenAI 的二代 DALL·E 驚艷亮相

來源：36氪時間：2022-04-14 18:37:56

能無痕 ps，能將文字轉為圖像，新一代的 DALL·E 2 有著什么樣的魔力？

去年 1 月，OpenAI 推出了一個名為 DALL·E 的 GPT-3 最強應用。一年后，二代的 DALL·E 2 也驚艷亮相。DALL·E 2 可以將文字轉換生成更真實、更準確的圖像，相比上一代產品，其分辨率提高了 4 倍，最為關鍵的是 DALL·E-2 還進化出了一項新技能——可以根據文字描述將圖像自動 PS，而這種 PS 修改目前還很難被察覺，足夠“以假亂真”。

原圖

PS 后

比如上圖中的「狗狗」就是由 DALL·E 2 后加上去的，兩幅圖對比下，幾乎看不出什么破綻。

可以說 DALL·E 2 帶給業界的震撼在于這是一款有著獨立創造力的跨模態生成模型。之前不管是可以一鍵切換為卡通風格的 CycleGAN，還是以自動修復圖像的 Partialconv，其中運用的 AI 技術只能在圖像或者文字的單一模式下進行生成和模仿，而時下將文字轉換成圖像、甚至根據文字對于圖像進行修改，這種“腦補”的能力也是一次創新性突破。

從DALL·E-2 展示出的效果來看，其聯想能力已經接近人類六歲的兒童，其藝術加工尤其是 PS 能力也已經達到了人類設計師的巔峰水平，按照OpenAI以往的調性，他們往往是三代產品最強，在未來繼續擴大參數規模的情況下，DALL·E 2還預示著DALL·E 3 將會有無限可能，這也不禁讓我們想進一步了解人工智能的邊界到底在哪。

DALL·E 2 的前世今生

DALL-E 是藝術家“Dalí”和機器人“WALL-E”的結合詞。雖然在 DALL·E 2 的論文中，OpenAI 的科學家們并沒有給出這個模型的具體規模與訓練所需要的算力，不過考慮到第一代 DALL·E 就已經是基于 GPT-3 這種超大規模模型的項目了，那么我們有理由相信 DALL·E 2 的參數模型應該是 3000 億起步。

截至目前，OpenAI 團隊也尚未在公共 API 列表中提供DALL·E 2 的相關功能或者預覽。據悉，OpenAI 的人員可能擔心 DALL·E 2 的超強功能被用到一些如換臉、圖像偽造等會對社會造成負面影響的方面，因此也正在設計限制 DALL·E 被用于負面圖像生成的方案，預計完成之后就會對外公開了。

與此同時，從另一個角度來看，這也推進了 AI 與云計算的結合，因為只有將 AI 云化才能讓普通玩家用得到 DALL·E 2，否則中小型公司憑借自己的力量，很難訓練出這種超大規模的模型。

DALL·E 2繼承了第一代產品將文本轉化為圖像的能力，并且提供了更高的分辨率和更低的延遲，還可以根據用戶的描述對于現有的圖像進行 PS，用戶可以從現有的圖片開始，選擇一個區域，并告訴模型編輯它。例如，你可以在客廳的墻上畫一幅畫，然后用另一幅畫代替它，或者在咖啡桌上放一瓶花。該模型可以填充（或刪除）對象，同時在 PS 過程中，DALL·E 2 還會考慮房間中陰影的方向等細節。

正如上文所說第一代的 DALL-E 是基于 GPT-3 模型的，它可以將圖像壓縮成文字，但圖像與文字的匹配往往會限制圖像的真實度。DALL·E 2 則引入了 CLIP/unCLIP 的機制，CLIP 類似于編碼器，它的工作原理是像人類一樣，查看圖像并總結圖像的內容，而 unCLIP 則是 CLIP 的反向操作，是從文字描述生成圖像的過程。CLIP/unCLIP 的機制在一定程度上解決了 CLIP 一個非常有趣的弱點：人們可以通過給一個物體貼上一個標簽（比如 iPod)，這種方式往往會達到欺騙模型的目的。DALL·E 2 對于這種貼著標簽的蘋果有著比較好的識別能力，比如下列圖片基本都能被 DALL·E 2 正確處理。

DALL·E 2 的基本原理與背后趨勢

正如前文所說，DALL·E 2 是基于 CLIP/unCLIP 機制的，首先為了獲得完整的圖像生成模型，將 CLIP 圖像嵌入解碼器與一個先驗模型，它從給定的文本標題生成可能的 CLIP 圖像嵌入。而將完整文本條件圖像生成堆棧則稱為 unCLIP，因為它通過顛倒 CLIP 圖像編碼器生成圖像。訓練數據集由成對（x, y）的圖像 x 和它們對應的標題 y 組成。設 zi 和 zt 分別為其 CLIP 圖像和文本嵌入，其基本的架構如下：

筆者認為 DALL·E 2 快速發展的背后，其實是人工智能由感知智能到認知智能的全面升級，而這其中的創造性是 AI 今后發展的最大助力，比如金融行業的呼叫中心需要分析客戶的語氣，以快速處理投訴類案例；出行類 APP 遇到客戶說出某些關鍵詞時，則需要立刻與 110 聯動報警。這些應用場景其實都需要 AI 模型放棄原先死板僵硬的計算，而發展出某種活性。而一旦 AI 擁有創意，那么就可以和二次元特性進行結合，尤其是 90、00 后的年輕人們，在對話當中經常使用表情圖、動態圖等方式來表達情感，而將這些非語言信息的語義提取并翻譯出來，就需要一定的創意了。

而再進一步，AI 未來很可能會達到比你自己更懂你的程度。比如前段時間筆者經常熬夜加班，結果打開淘寶會發現總給我推薦防脫洗發水，當然目前已經推薦枸杞了。

不過這其實也說明認知智能的終極發展就是讓用戶在使用過程中對于“人工智能”不斷淡化，甚至無感化。現在用戶使用人工智能時還會明顯感受到它的存在，比如你打開電視還需要說“我要看XXX的電視劇”，還要對手機說“給XXX打電話”而真正實現認知智能之后，將會讓你覺得你的這些交互行為變為多余，比如你回到家，人工智能系統會根據你的步態，推薦一個適合你當下身體狀況的食譜，等你吃完飯下樓去超市的時候，你的手機會建議補充一些牛奶，因為你剛剛已經把家里最一袋牛奶喝掉了。相信讀到這里讀者也就會明白，化有形于無形，就是用戶交互的最終奧義。

雖然短期來看，創造性 AI 還略顯遙不可及，但是 DALL·E 2 的出現，讓我們看到了希望，讓我們做好準備迎接新一代認知 AI 產品的到來。

關鍵詞：人工智能工作原理

責任編輯：FD31