2018年,Yann LeCun:人工智能缺乏對世界的基本認識,甚至還不如家貓認知水平。
2022年,Yann LeCun:人工智能依然沒有達到貓的水平。
最近,LeCun在Lex Fridman的采訪中表示,盡管只有8億個神經元,但貓的大腦遠遠領先于任何大型人工神經網絡。
貓和人類的共同基礎是對世界高度發達的理解,基于對環境的抽象表征,形成模型,例如,預測行為和后果。
對于人工智能來說,學習這種環境模型的能力就非常關鍵了。
此前,LeCun也曾表示過,「在我職業生涯結束前,如果AI能夠達到狗或者牛一樣的智商,那我已經十分欣慰了」。
人工智能必須學會世界的表征
人工智能必須學會以與基于梯度的學習兼容的方式進行思考和規劃
人工智能必須學習行動規劃的分層表征
LeCun認為第一個挑戰的解決方案是自監督學習。
語言模型或圖像分析系統的成功表明,人工智能有能力創建復雜的世界模型。
就比如Meta AI在前段時間推出的第一個適用于多種模態的高性能自監督算法——data2vec。
它可分別應用于語音、圖像和文本,它的性能超過了以前最好的計算機視覺和語音的單一用途算法,而且在NLP任務上也具有競爭力。
data2vec的提出代表了一種新的整體自監督學習范式,不僅改進了模型在多種模態下的表現,同時也不依賴于對比性學習或重建輸入實例。
為此,LeCun也發文表示祝賀:「data2vec在ImageNet(視覺)、LibriSpeech(語音識別)和GLU(NLP)上的結果均優于現有SOTA。」
然而,下一代人工智能將不再使用語言或圖像,而是直接從視頻中學習。
想象一下,你的增強現實設備準確地顯示了如何在鼓課上握住木棒,指導你完成一個食譜,幫助你找到丟失的鑰匙,或者像全息圖一樣浮現出你的記憶。
為了實現這些新技術,人工智能需要像我們一樣,從第一人稱的角度理解世界并與它互動,這在研究界,通常被稱為以第一人稱為中心的視覺感知。
然而,今天的計算機視覺(CV)系統從數以百萬計的照片和視頻中學習,盡管發展飛速,有了喜人的研究進展,可這些照片和視頻都是以第三人稱視角拍攝的,相機的視角只是一個行動的旁觀者視角。
2021年,Meta AI宣布的「Ego4D」(Egocentric 4D Perception)計劃, 這個雄心勃勃的長期項目為的就是解決以第一人稱視覺為中心的感知領域的研究挑戰。
目前,已經收集了來自全球9個不同國家74個地點的855名獨特參與者提供的3025小時視頻。
就拿過山車來說吧,你在上面體驗著腎上腺素飆升的快感。而下面的人則是看得一臉懵比。
人工智能,就更懵了……如果把CV系統綁在過山車上,它估計完全不知道自己該看些什么。即便在地面上從旁觀者的角度看了幾十萬張過山車的圖片或視頻,也是如此。
LeCun認為,人工智能系統可以從這些視頻中了解我們世界的物理基礎。AI的理解將反過來成為眾多能力的基礎,如抓取物體或駕駛汽車。
那么,當解決了第一個挑戰之后,第二個挑戰的解決也就有了相應基礎。
與人工智能研究之初不同的是,思維系統不應該再由根據邏輯規則運行符號系統組成,畢竟這些對世界的認知是靠人工進行編程的。
不過,對于第三個挑戰,LeCun表示還沒有很好的解決方案。
一個要在現實世界中行動的人工智能系統,無論是作為機器人還是自動駕駛汽車,都必須能夠預測其行動的后果,并在每種情況下選擇最佳行動。
目前來說,在例如控制機器人的手臂這種簡單的情況下,已經可以實現了。但在未來,系統也需要能夠處理所有其他的情景。
「這不僅僅是關于火箭的軌跡或機械臂的運動,這些都可以通過精細的數學建模來實現,」LeCun表示,「模型涉及到我們在世界上觀察到的一切:人類的行為,涉及水或樹枝等現象的物理系統等等。而對于這些復雜的事物,人類是可以很容易地開發出抽象的表征和模型。」
就以圖像識別來說,雖然Meta的data2vec取得了相當SOTA的成績,但監督學習仍然是最流行的方法。
也就是說,AI在工作之前需要「吃掉」大量的圖像和相關的標注。其中,每個標注都與非常多的圖像相關聯,而這些圖像則代表了物體在不同角度和光線下的狀態等。
例如,為了讓人工智能程序能夠識別貓,就必須投入多達一百萬張的照片,才能讓AI建立起一個物體的內部視覺表征。但這種表征最終只是一種簡單的描述,并沒有立足于任何現實。
人類可以從呼嚕聲、毛發貼在腿上的感覺、貓砂盆的微妙氣味等幾百種方法認出一只「貓」,但這些對人工智能來說卻毫無意義。
于是這里就有了一個關于AI的「天問」。
如果它從不口渴,它能理解什么是飲料嗎?如果它從來沒有被燒過,它能理解火嗎?如果它從未打過寒顫,它能理解寒冷嗎?
當一個算法「識別」一個物體時,它根本不了解該物體的性質。它只是與之前的例子進行交叉檢驗而已。
Yann LeCun,計算機科學家,為卷積神經網絡和圖像識別領域作出了重要貢獻,被譽為「卷積神經網絡之父」。
Yann LeCun主要研究領域為機器學習、計算機視覺、移動機器人和計算神經科學等領域,他與Geoffrey Hinton、Yoshua Bengio并稱為機器學習的「三巨頭」。
他們3人共同獲得2018年圖靈獎,這被公認為計算機領域的最高榮譽。
從左至右分別為:Yann LeCun、Geoffrey Hinton、Yoshua Bengio
Yann LeCun于1960年出生于法國巴黎,并一直在巴黎學習,他于1983年獲得巴黎高等電工和電子工程學院(ESIEE)的電氣工程學士學位,1987年獲得巴黎皮埃爾和瑪麗居里大學(Pierre and Marie Curie)的計算機科學博士學位。
Yann LeCun的博士后研究轉去了加拿大,師從多倫多大學著名的Geoffrey Hinton教授。盡管,博士后生涯十分短暫,但,正是在這里開啟了師徒二人的合作研究,奠定了他們往后在機器學習領域的合作關系與重要成就。
此后,Yann LeCun緊跟Geoffrey Hinton教授的步伐,成了機器學習領域的重要人物!
1988年,Yann LeCun加入AT&T(美國電話電報公司)貝爾實驗室,此后,他還擔任了圖像處理研究部主任。
正是在AT&T,他的研究取得了重大突破。Yann LeCun提出了一種新的方法,即卷積、池化和全連接層次結構,研究手寫數字分類,提出了卷積神經網絡,即LeNet。
美國郵政服務等機構很快采用了類似的網絡,以自動完成繁瑣的分類工作,這個網絡在識別郵政編碼數字方面做得很好。
后來,卷積神經網絡成了當前的深度神經網絡的重要基石。
第五代LeNet DCNN(深度卷積神經網絡)
2003年,Yann LeCun去了紐約大學擔任教職,他指導紐約大學的數據科學倡議,并成為紐約大學數據科學中心的創始主任。
2013年底,他被任命為Facebook人工智能研究總監,后來,擔任Meta公司的副總裁兼首席人工智能科學家。
2014年,Yann LeCun被IEEE(美國電氣與電子工程師協會)授予「神經網絡先鋒獎」。
一直以來,Yann LeCun都對「學習」這個問題很感興趣,這也直接決定了他日后的研究領域——「機器學習」。
Yann LeCun認為,「學習是智慧中的重要部分」。
那么,當前的機器學習發展到了什么程度呢?Yann LeCun在最近的訪談中,借用形象的比喻認為,「AI依然沒有達到貓的水平」。
正是因為如此,AI以及AI研究人員依然有很多事要做。Yann LeCun自認為,「我不是一個好的理論科學家,我做的還行的是實現,讓東西跑起來」。
對于他的成績,Yann LeCun非常謙虛,他說:「我只是鉆到一群比我聰明的人里面去」。
讓Yann LeCun比較得意的一件事是,他一直在機器學習不斷往下挖,去發現問題背后真正的問題。
「把問題簡化,再簡化,直到達到真正的核心問題。」Yann LeCun說,「要問最基本的問題,摒棄一切表面上的東西,直到得到一個簡單得不可思議的問題。」
AI 的未來就在自監督學習里。
參考資料:
https://mixed-news.com/en/metas-ai-chief-three-major-challenges-of-artificial-intelligence/
http://yann.lecun.com/ex/bio.html
https://thenextweb.com/news/why-your-cat-is-lousy-at-chess-yet-way-smarter-than-even-the-most-advanced-ai?utm_campaign=profeed&utm_medium=feed&utm_source=social
本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,36氪經授權發布。