伊人久久大香线蕉avapp下载-97久久伊人精品影院-伊人三区-亚洲伊人久久大香线蕉综合图片-中文字幕美日韩在线高清-中文字幕伦理聚合第一页

30頁論文,俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發展史

來源:36kr時間:2023-03-30 16:01:05

2022年,可以說是生成式AI的元年。近日,俞士綸團隊發表了一篇關于AIGC全面調查,介紹了從GAN到ChatGPT的發展史。

剛剛過去的2022年,無疑是生成式AI爆發的奇點。

自2021年起,生成式AI連續2年入選Gartner的「人工智能技術成熟度曲線」,被認為是未來重要的AI技術趨勢。


(資料圖)

近日,俞士綸團隊發表了一篇關于AIGC全面調查,介紹了從GAN到ChatGPT的發展史。

論文地址:https://arxiv.org/pdf/2303.04226.pdf

本文節選了論文部分內容進行介紹。

奇點已來?

近年來,人工智能生成內容(AIGC,也稱生成式AI)引發了計算機科學界以外的廣泛關注。

整個社會開始對大型科技公司開發的各種內容生成的產品,如ChatGPT和DALL-E-2,產生了極大興趣。

AIGC,是指使用生成式人工智能(GAI)技術生成內容,并可以在短時間內自動創建大量內容。

ChatGPT是OpenAI開發的一個用于構建會話的AI系統。該系統能夠以一種有意義的方式有效地理解人類語言并作出回應。

此外,DALL-E-2也是OpenAI開發的另一種最先進的GAI模型,能夠在幾分鐘內從文本描述中創建獨特的高質量圖像。

AIGC 在圖像生成中的示例

從技術上講,AIGC是指給定指令,可以引導模型完成任務,利用GAI生成滿足指令的內容。這個生成過程通常包括兩個步驟:從指令中提取意圖信息,并根據提取的意圖生成內容。

然而,正如以前的研究所證明的那樣,包含上述兩個步驟的GAI模型的范式并非是完全新穎的。

與此前工作相比,最近AIGC進步的核心點是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型框架,并且可以訪問廣泛的計算資源。

比如,GPT-3和GPT-2的主框架一樣,但是預訓練數據大小從 WebText (38GB) 增加到 CommonCrawl (過濾后為570GB) ,基礎模型大小從1.5B增加到175B。

因此,GPT-3在各種任務上比GPT-2有更好的泛化能力。

除了數據量和計算能力增加所帶來的好處之外,研究人員還在探索將新技術與GAI算法結合起來的方法。

比如,ChatGPT利用人類反饋的強化學習 (RLHF) 來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解長時間對話中的人類偏好。

同時,在CV中,Stability AI在2022年提出的Stable Diffusion在圖像生成方面也取得了巨大的成功。

與以往的方法不同,生成擴散模型可以通過控制探索和開發之間的平衡來幫助生成高分辨率圖像,從而在生成的圖像中實現多樣性,與訓練數據相似性的和諧組合。

通過將這些進步結合起來,模型在AIGC的任務中取得了重大進展,并已被藝術、廣告和教育等各行各業采用。

在不久的將來,AIGC將繼續成為機器學習研究的重要領域。

一般來說,GAI模型可以分為兩種類型: 單模態模型和多模態模型

因此,對過去的研究進行一次全面的回顧,并找出這個領域存在的問題是至關重要的。這是首份關注AIGC領域的核心技術和應用的調查。

這是AIGC第一次在技術和應用方面總結GAI的全面調查。

以前的調查主要從GAI不同角度介紹,包括自然語言生成 ,圖像生成,多模態機器學習生成。然而,這些先前的工作只關注AIGC的特定部分。

在這次調查中,最先回顧了AIGC常用的基礎技術。然后,進一步提供了先進GAI算法的全面總結,包括單峰生成和多峰生成。此外,論文還研究了 AIGC 的應用和潛在挑戰。

最后強調了這個領域未來方向??傊疚牡闹饕暙I如下:

-據我們所知,我們是第一個為AIGC和AI增強的生成過程提供正式定義和全面調查。

-我們回顧了AIGC的歷史、基礎技術,并從單峰生成和多峰生成的角度對GAI任務和模型的最新進展進行了綜合分析。

-本文討論了AIGC面臨的主要挑戰和未來的研究趨勢。

生成式AI歷史

生成模型在人工智能中有著悠久的歷史,最早可以追溯到20世紀50年代隱馬爾可夫模型 (HMMs) 和高斯混合模型(GMMs)的發展。

這些模型生成了連續的數據,如語音和時間序列。然而,直到深度學習的出現,生成模型的性能才有了顯著的提高。

在早期的深度生成模型中,不同的領域通常沒有太多的重疊。

生成AI在 CV、NLP和VL中的發展史

在NLP中,生成句子的傳統方法是使用N-gram語言模型學習詞的分布,然后搜索最佳序列。然而,這種方法不能有效適應長句子。

為了解決這個問題,遞歸神經網絡(RNNs)后來被引入到語言建模任務中,允許相對較長的依賴關系進行建模。

其次是長期短期記憶(LSTM)和門控遞歸單元(GRU)的發展,它們利用門控機制來在訓練中控制記憶。這些方法能夠在一個樣本中處理大約200個標記(token),這與N-gram語言模型相比標志著顯著的改善。

同時,在CV中,在基于深度學習方法出現之前,傳統的圖像生成算法使用了紋理合成(PTS)和紋理映射等技術。

這些算法基于手工設計的特征,并且在生成復雜多樣圖像的方面能力有限。

2014年,生成對抗網絡(GANs)首次被提出,因其在各種應用中取得了令人印象深刻的結果,成為人工智能領域的里程碑。

變異自動編碼器(VAEs)和其他方法,如生成擴散模型,也被開發出來,以便對圖像生成過程進行更細粒度的控制,并能夠生成高質量的圖像。

生成模型在不同領域的發展遵循著不同的路徑,但最終出現了交集: Transformer架構。

2017年,由 Vaswani 等人在NLP任務中引入Transformer,后來應用于CV,然后成為各領域中許多生成模型的主導架構。

在NLP領域,許多著名的大型語言模型,如BERT和GPT,都采用Transformer架構作為其主要構建模塊。與之前的構建模塊,即LSTM和GRU相比,具有優勢。

在CV中,Vision Transformer (ViT) 和 Swin Transformer后來進一步發展了這一概念,將Transformer體系結構與視覺組件相結合,使其能夠應用于基于圖像的下行系統。

除了Transformer給單個模態帶來的改進外,這種交叉也使來自不同領域的模型能夠融合在一起,執行多模態任務。

多模態模型的一個例子是CLIP。CLIP是一個聯合的視覺語言模型。它將Transformer架構與視覺組件相結合,允許在大量文本和圖像數據上進行訓練。

由于在預訓練中結合了視覺和語言知識,CLIP也可以在多模態提示生成中作為圖像編碼器使用??傊?,基于Transformer模型的出現徹底改變了人工智能的生成,并導致了大規模訓練的可能性。

近年來,研究人員也開始引入基于這些模型的新技術。

例如,在NLP中,為了幫助模型更好地理解任務需求,人們有時更傾向于少樣本(few-shot)提示。它指的是在提示中包含從數據集中選擇的一些示例。

在視覺語言中,研究人員將特定模式的模型與自監督對比學習目標的模式相結合,以提供更強大的表示。

未來,隨著AIGC變得愈發重要,越來越多的技術將被引入,將賦予這一領域極大的生命力。

AIGC基礎

本節中,介紹了AIGC常用的基礎模型。

基礎模型

Transformer

Transformer是許多最先進模型的骨干架構,如GPT-3、DALL-E-2、Codex和Gopher。

它最早是為了解決傳統模型,如RNNs,在處理變長序列和上下文感知方面的局限性而提出的。

Transformer的架構主要是基于一種自注意力機制,使模型能夠注意到輸入序列中的不同部分。

Transformer由一個編碼器和一個解碼器組成。編碼器接收輸入序列并生成隱藏表示,而解碼器接收隱藏表示并生成輸出序列。

編碼器和解碼器的每一層都由一個多頭注意力和一個前饋神經網絡組成。多頭注意力是Transformer的核心組件,學習根據標記的相關性分配不同的權重。

這種信息路由方法使該模型能夠更好地處理長期的依賴關系,因此,在廣泛的NLP任務中提高了性能。

Transformer的另一個優點是它的架構使其具有高度并行性,并允許數據戰勝歸納偏置。這一特性使得Transformer非常適合大規模的預訓練,使基于Transformer的模型能夠適應不同的下游任務。

預訓練語言模型

自從引入Transformer架構以來,由于其并行性和學習能力,讓其成為自然語言處理的主流選擇。

一般來說,這些基于Transformer的預訓練語言模型可以根據其訓練任務通常分為兩類: 自回歸語言模型,以及掩碼語言模型。

給定一個由多個標記組成的句子,掩蔽語言建模的目標,例如BERT和RoBERTa,即預測給定上下文信息的掩蔽標記的概率。

掩碼語言模型最顯著的例子是BERT,它包括掩蔽語言建模和下句預測任務。RoBERTa使用與BERT相同的架構,通過增加預訓練數據量,以及納入更具挑戰性的預訓練目標來提高其性能。

XL-Net也是基于BERT的,它結合了排列操作來改變每次訓練迭代的預測順序,使模型能夠學習更多跨標記的信息。

而自回歸語言模型,如GPT-3和OPT,是對給定前一個標記的概率進行建模,因此是從左到右的語言模型。與掩碼語言模型不同,自回歸語言模型更適合生成式任務。

從人類反饋中強化學習

盡管經過大規模數據的訓練,AIGC可能并不總是輸出與用戶意圖一致的內容。

為了使 AIGC 輸出更好地符合人類的偏好,從人類反饋中強化學習(RLHF)已應用于各種應用中的模型微調,如Sparrow、InstructGPT和ChatGPT。

通常情況下,RLHF的整個流程包括以下三個步驟: 預訓練、獎勵學習和強化學習的微調。

計算

硬件

近年來,硬件技術有了顯著的進步,促進了大模型的訓練。

在過去,使用 CPU訓練一個大型神經網絡可能需要幾天甚至幾周的時間。然而,隨著算力的增強,這一過程已經被加速了幾個數量級。

例如,英偉達的NVIDIA A100 GPU在BERT大型推理過程中比V100快7倍,比T4快11倍。

此外,谷歌的張量處理單元(TPU)專為深度學習設計的,與A100 GPU相比,提供了更高的計算性能。

計算能力的加速進步顯著提高了人工智能模型訓練的效率,為開發大型復雜模型提供了新的可能性。

分布式訓練

另一個重大的改進是分布式訓練。

在傳統機器學習中,訓練通常是在一臺機器上使用單個處理器進行的。這種方法可以很好地應用于小型數據集和模型,但是在處理大數據集和復雜模型時就變得不切實際。

在分布式訓練中,訓練的任務被分散到多個處理器或機器上,使模型的訓練速度大大提升。

一些公司也發布了框架,簡化了深度學習堆棧的分布式訓練過程。這些框架提供了工具和API,使開發者能夠輕松地將訓練任務分布在多個處理器或機器上,而不必管理底層基礎設施。

云端運算

云計算在訓練大模型方面也發揮了至關重要的作用。以前,模型經常在本地進行訓練?,F在,隨著AWS和Azure等云計算服務提供了對強大計算資源的訪問,深度學習研究人員和從業人員可以根據需要創建大模型訓練所需的大型GPU或TPU集群。

總的來說,這些進步使得開發更復雜、更精確的模型成為可能,在人工智能研究和應用的各個領域開啟了新的可能性。

作者介紹

俞士綸(Philip S. Yu)是計算機領域學者,是ACM/IEEE Fellow,在 伊利諾大學芝加哥分校 (UIC)計算機科學系任特聘教授。

他在大數據挖掘與管理的理論、技術方面取得了舉世矚目的成就。他針對大數據在規模、速度和多樣性上的挑戰,在數據挖掘、管理的方法和技術上提出了有效的前沿的解決方案,尤其在融合多樣化數據、挖掘數據流、頻繁模式、子空間和圖方面做出了突破性的貢獻。

他還在并行和分布式數據庫處理技術領域做出了開創性貢獻,并應用于IBM S/390 Parallel Sysplex系統,成功將傳統IBM大型機轉型為并行微處理器架構。

參考資料

https://arxiv.org/pdf/2303.04226.pdf

關鍵詞:

責任編輯:FD31
上一篇:環球今日訊!為什么「受傷的」總是劉格菘?
下一篇:最后一頁
主站蜘蛛池模板: 3d动漫精品啪啪一区二区免费| 极度另类极品另类| 国产男女爽爽爽免费视频| 国产一级毛片大陆| 性生活大片免费观看| 永久看一二三四线| 日本精a在线观看| 性大毛片视频| 草β好视频| 老少交欧美另类| 玉蒲团3d| 国产精品播放| 亚洲黄区| 久久精品中文字幕| 欧美韩日| 男人和女人做爽爽视频| 欧美日韩电影在线| 日本三级黄视频| 国产一级做a爰片久久毛片| 五月婷婷深深爱| 欧美一区二区三区视频在线观看| 把她抵在洗手台挺进撞击视频| 亚洲综合久久综合激情久久| 波多野たの结衣老人绝伦| 狼群影院www| 福利一区二区在线| 黄色三级斤| 国产精品毛片va一区二区三区| 我和岳乱妇三级高清电影| 欧美午夜精品久久久久免费视 | 蜜桃成熟时仙子| 快穿之肉玩具系统| 久久精品国产99久久无毒不卡| 欧美不卡影院| 精品卡一卡2卡三卡免费观看| 久久久久国产精品| 黄网站色视频免费观看| 翁熄交换| 最近中文国语字幕在线播放| 伊人久久久大香线蕉综合直播| 天海翼黄色三级|