先來欣賞幾張美麗的場景圖吧。
色彩搭配和諧、構圖得當有沖擊力,一眼看過去大部分的人也許都會認為它們是出自哪位技藝成熟的畫家之手,然而以上圖片其實均截取自 YouTuber Quick-Eyed Sky 的 Disco Diffusion 三分鐘展示視頻。
Disco Diffusion 是一個輸入關鍵詞就出圖的 AI 創作程序,已經在GitHub 的開源,任何人都可以玩。但由于還沒像軟件那樣封裝起來,目前只是在谷歌的 Colaboratory(又稱 Colab)中以代碼的形式呈現。
近年來,人工智能技術發展迅速,在藝術創作領域,像 AI 寫作、AI 繪畫、甚至 AI 編曲等早已不是什么新鮮事。隨著更加友好的人機交互界面的推廣,如今普通大眾只要打開開發者提供的網頁,輕松幾步就能體驗 AI 技術的魅力了。
這次我們給出了四款號稱用嘴就能畫畫(輸入關鍵詞就能出稿)的人工智能創作工具來告訴大家它們如何使用,順便做一個使用方法和出圖效果上的比拼,看看哪款 AI 最易上手,效果最好。
Disco Diffusion 由藝術家 Somnai 設計,擁有強大的關鍵詞轉圖像能力,并且由于代碼托管在 Colab 上,所有渲染過程都可以在線上進行,不需要依賴使用者的電腦來運算。
▲創作者的 Twitter
▲Somnai 用 Disco Diffusion 制作的視頻
初次打開 Disco Diffusion 的使用界面你可能會被大量的代碼嚇到,但實際上只要按照如下步驟調試,要使用它還是很簡單的。
▲滿是代碼的界面容易讓人望而卻步
首先往下拖動網頁找到第三項「Settings」,在右手邊「Basic Settings」中我們可以對生成圖像的品質進行設置。
「Step」是指 AI 生成迭代的次數,「Step」數值越多,運算時間越長,不過藝術品某程度上是偶然性和美的碰撞,運算次數多,不代表出來的作品就好看。
下方的「width height」是指成圖的圖片尺寸,此處只能輸入 64 的倍數(比如 1280, 768),尺寸越大渲染時間越長。
在「Settings」中還有一個叫「Init Settings」的部分,在「init_image」中輸入圖片的地址,可以讓程序以某圖片為基礎參照著進行運算。
點擊下圖圈選部分將本地圖片上傳,然后選中列表中的圖片,在右鍵菜單中找到「復制路徑」復制地址,再粘貼到「init_image」上即可。
接下來就是最重要的通過關鍵詞描述畫作內容部分。下拉找到「Settings」中的「Prompts」項,看到「text_prompts」。
▲語句中的方括號和引號不要改動
在「text_prompts」中代碼中默認的語句為:
"A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.", "yellow color scheme"
翻譯過來就是:
由畫家 Greg Rutkowski 和 Thomas kinkade 繪制的關于一座在洶涌的血海中閃耀的奇異燈塔的作品,以 Artstation 為參考庫,黃色配色。
「beautiful painting」 為畫種,你可以將它改為「ink painting(墨水畫)」「oil painting(油畫)」「comic(漫畫)」等等。
「a singular lighthouse, shining its light across a tumultuous sea of blood」 是內容描述,決定了你的畫面中將出現什么,這里自由發揮即可。
「greg rutkowski and thomas Kinkade」是成圖更接近哪位畫家的風格,此處可以輸入不止一位畫家。
「Trending on artstation」是畫作的參考平臺,即 AI 主要從哪個平臺獲取參照,可以輸入的平臺有「Facebook」「Pixiv」「Pixbay」等等。
「yellow color scheme」是整個畫面的主色調為黃色。
要改變畫的內容,只需按照格式調整語句中相應的關鍵詞(注意逗號,雙引號等要用英語)。
除了更換關鍵詞,你還可以設定每個關鍵詞的權重,比如當我的畫家風格為「Van Gogh and Monet(梵高和莫奈)」時,我可以寫成「Van Gogh:3」 and 「Monet:2」,即作品三分像梵高,兩分像莫奈。
有時候如果想讓某個元素不要在畫面里出現,我們還可以設定數值為負數。
▲請給我一張三分像梵高,兩分像莫奈的萬里無云的天空畫
最后我們還可以在第四項「Diffuse!」中的「n_batches」設置一次生成多少張圖(變體),也即如果此處輸入 5,則最終可以得到 5 張圖(圖越多需要的時間越長)。
將以上重要參數設置完成以后,在頁面的上方點擊「代碼執行程序」按鈕,在菜單中選擇「全部運行」后程序即開始運算。
免費用戶一般分配到的是 Colaboratory 的 Tesla K80 顯卡電腦,線上渲染速度比較慢,一張默認尺寸和迭代次數的圖大概需要一個半到兩小時才能完成。
如果等不及的也可以選擇「連接到本地運行時」用自己電腦的顯卡進行渲染,但是需要用到「Jupyter 筆記本服務器」等工具,這里就不作展開了。
接下來便是漫長的等待過程,拉到「Diffuse!」底部時你可以看到自己的圖片從一片模糊到逐漸清晰的變化過程。
▲程序底部有運算持續時間和目前步驟顯示
根據之前程序提供的默認語句,我生成了一張海上燈塔的圖片,畫面效果一流,用來做桌面背景完全沒問題。
接下來我又改動了一些參數,再生成了兩張圖,描述語句如下:
A painting of a robot angel, flapping her wings in the night sky by Shirow Masamune, Trending on artstation, blue color scheme.(一張機械天使在夜空中揮動翅膀的畫,士郎正宗創作,以 Artstation 為參考庫,藍色配色)
▲默認畫質,耗時 1.5 小時
Cyberpunk station.(賽博朋克車站)
▲448*448 像素,耗時 45 分鐘
首先這兩張圖片都可以算得上是切題。「機械天使」圖雖然沒能體現 「夜空」這個關鍵詞,但構圖有特色,天使也能展示出明顯的機械感,至于畫有沒有士郎正宗的神韻就見仁見智了。
在「車站」圖的上方我們能看到列車、電纜等要素,紅色、綠色的霓虹燈、屏幕等也是典型的賽博朋克元素,美中不足的就是完成度不高。
相比起 Disco Diffusion,NightCafe 用起來就簡單多了。
NightCafe 的網頁提供了兩款智能繪圖工具,左邊的「Text to Image(文本轉圖像)」是類似于 Disco Diffusion 的輸入關鍵詞生成圖工具,右邊的「Style Transfer(風格遷移)」可以把用戶上傳的照片換成名畫風格。
先來測試第一個功能。在「Your text prompt」下方的方框中輸入關鍵詞,如:A city surrounded by machine(被機械保包圍的城市),然后在下方 16 種風格選取一個。
拉到底部選擇是紋理優先(Artist)還是構圖優先(Coherent)后點擊最下面的「CREATE」,等待幾分鐘,一張方形的圖就生成了。
▲成圖過程
如果不滿足于默認圖像的尺寸,你還可以在關鍵詞輸入界面打開「Show advanced options(顯示高級選項)」。在此模式下你不僅能自定義圖像的尺寸,還可以設定多張參考的底圖。
風格轉移工具的使用也很簡單。上傳一張照片,從 64 種名畫風格中挑選一個,再等 1-2分鐘,一張驚艷的圖片就誕生了。
將之前燈塔、車站和天使的關鍵詞去掉作者和參照庫后輸入到 NightCafe Creator ,我們得到了以下三張圖片。
▲關鍵詞:一座在洶涌的血海中閃耀的奇異燈塔,黃色配色
▲關鍵詞:一張機械天使在夜空中揮動翅膀的畫,藍色配色
▲關鍵詞:賽博朋克車站
所有圖片里效果最好的個人認為是天使的畫,雖然走的是較為抽象的路線,但那一雙像衛星的太陽能接收翼的翅膀還是體現出了機械和天使的組合元素,角色的動作也很生動,在 AI 的啟發下我忍不住也參照著畫了一張。
▲ 右邊是我自己參照繪制的.自認沒有 AI 畫得有意思
賽博朋克車站的效果中規中矩,而燈塔圖的效果就很一般了,畫面中出現了很多相似的燈塔,能看起來是為了鋪滿畫面而多次復制導致的。
Cogview 是本次測試中唯一支持中文輸入的 AI 工具(字數限制為 2-30 中文字符),由清華大學的唐杰團隊研發,出圖時間為 1-5 分鐘不等,一次可以生成八張圖,但尺寸不可調。
從輸入英文關鍵詞網頁會翻譯為中文再運算這一點推斷,該程序應該是以漢語為語言進行訓練的,在一堆只能用英文輸入的同類 AI 中顯得難能可貴。
▲該團隊去年發表的論文
其實這款程序最擅長的是真實的照片生成,而非藝術繪畫。比如當我們輸入「黃豆組成的字母 b」時,AI 會給我們八張符合描述的真實照片。
▲已在各個搜索引擎確認過網上并無現成的類似圖片
而之前的 NightCafe Creator 無論怎么切換風格也只能產出類似下圖的「藝術作品」。
當關鍵詞是與繪畫有關時, Cogview 就略遜一籌了,比如當我們想用「Oil Painting Style(油畫風格)」風格生成一座之前描述的塔,八張成圖還是更像照片而非畫作。
賽博朋克車站的畫面效果要好很多,可能是由于本身是建筑物,而且該描述本身也適合寫實風格。
在重新生成燈塔的圖時為了讓它更像畫作,我切換成了水墨風格。Cogview 是這么多款 AI 里面唯一真實地還原了「sea of blood(血海)」的,不過有點詭異就是了。
機械天使的油畫出圖效果就一言難盡了,八張成圖都過于抽象,難以評價。
不過據說我們現在習慣了的俊美人形帶潔白翅膀的天使形象其實是文藝復興時期經過美化的。《舊約》中描述的天使的外貌本就是千奇百怪的,畢竟天使是超越人類認知能力的存在,怎么可能和人長得一樣呢?
▲舊約中描繪的座天使
WOMBO Dream 這款工具我們曾經在另外一篇介紹 AI 繪畫的文章里介紹過,它的界面我認為是本次介紹的幾款中最好看的,成圖時間也是幾款中最短的,約為 30 秒。
操作過程和 NightCafe Creation 很像這里就贅述了,直接上圖。
▲關鍵詞:一張機械天使在夜空中揮動翅膀的畫,藍色配色
▲關鍵詞:一座在洶涌的血海中閃耀的奇異燈塔,黃色配色
▲關鍵詞:賽博朋克車站
由于該程序只支持最多 100 個英文字母的輸入,有些關鍵詞就不得不被迫刪減。從三張圖片中我們可以看到 WOMBO Dream 的成圖十分追求「畫感」。
所謂「畫感」,簡單來說就是讓人一看就會認為這一張畫出來的作品,而不像攝影或者 3D 模型擺拍。當然,程序自帶的塔羅牌式畫框對「畫感」的形成也許有幫助。
▲在畫廊中右鍵另存為可以保存不帶畫框的圖片
總的來說,四款 AI 作圖工具各有千秋,且都是網頁版,免費使用。
Disco Diffusion 可以實現最復雜的關鍵詞描述,支持自設置的參數很多,是一個待探索的巨大寶庫,但是成圖時間長,操作界面也相對復雜。
NightCafe Creator 和 WOMBO Dream 都能快速產出作品,前者可以對畫面尺寸進行設置,也能容納更多的關鍵詞,但后者界面更好看,出圖自帶畫框。
Cogview 的好處是支持中文關鍵詞,在現實照片生成這方面有優勢,無法自定義圖片尺寸。
在多款 AI 設計工具火熱以后,有人開始擔心畫家的工作會不會被取代。在 Disco Diffusion 爆紅以后,公眾號「設計青年實驗室」請了幾位設計大咖探探自己對 AI 作畫的感受,其中插畫師瘋景是這樣說的:
如果有一天 AI 取代了更多的價值,那么我會努力去尋求新的價值,船到橋頭自然直。
生產力的發展帶來的是生產方式的變革。我們都知道印象派的誕生是源于 19 世紀攝影技術的發明,當人們意識到無論怎么畫都不可能比照相機逼真的時候, 朦朧、個性、抽象等反而成為彌足珍貴的東西。
▲莫奈的代表作《日出印象》
如今,AI 畫手的出現又重新對我們的藝術界發出了挑戰,藝術家們為捍衛領土又會以什么樣的策略迎戰呢?我們不妨拭目以待。
Disco Diffusion: https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
Cogview:https://agc.platform.baai.ac.cn/CogView/index.html
WOMBO Dream:https://www.wombo.art/
NightCafe Creator:https://creator.nightcafe.studio/