作者 | CDA數(shù)據(jù)分析師
來源 | 《Dataat Work》
受訪者簡(jiǎn)介
Yann LeCun是全球最大社交網(wǎng)站的人工智能研究總監(jiān) 。
的核心業(yè)務(wù)是促進(jìn)人與人之間、人與人與數(shù)字世界之間的溝通 。考慮到涉及的數(shù)據(jù)規(guī)模之大,支持這項(xiàng)任務(wù)所需的技術(shù)是巨大的 。截至2014年,擁有超過13億的活躍用戶(彼此之間的連接超過1500億)和8.29億的每日獨(dú)立登錄 。這些用戶平均每天上傳約3.5億張照片,分享約47.5億項(xiàng)內(nèi)容 , 發(fā)送約100億條信息 。這些流數(shù)據(jù)集的可用性是如此之大 , 以至于在大多數(shù)情況下,的系統(tǒng)只有一次時(shí)間查看任何數(shù)據(jù) 。這樣的活動(dòng)水平帶來了一系列獨(dú)特的挑戰(zhàn):如何最好地理解和理解所有的數(shù)據(jù),以及如何使用這種信息關(guān)聯(lián)來做出決策
在加入之前人工智能比較好的書籍,LeCun是紐約大學(xué)計(jì)算機(jī)科學(xué)、神經(jīng)科學(xué)、電子和計(jì)算機(jī)工程的銀牌教授 , 現(xiàn)在仍然是紐約大學(xué)數(shù)據(jù)科學(xué)中心的創(chuàng)始主任 。
在多倫多發(fā)展理論后,他加入了美國(guó)電話電報(bào)公司貝爾Laage處理研究部門 。2003年加入紐約大學(xué) 。在他迄今為止的職業(yè)生涯中,他發(fā)表了180多篇關(guān)于機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、筆跡識(shí)別、圖像處理和壓縮以及神經(jīng)網(wǎng)絡(luò)作品的技術(shù)論文和書籍章節(jié) 。他尤其以他在深度學(xué)習(xí)方法方面的工作而聞名,這些方法被公司用來理解圖像、視頻、文檔、人機(jī)交互和語音 。
LeCun是一個(gè)無與倫比的數(shù)據(jù)科學(xué)家的例子,他有一個(gè)轉(zhuǎn)型的愿景——在他的例子中,使用深度學(xué)習(xí)來教機(jī)器感知世界——他努力在學(xué)術(shù)和工業(yè)研究實(shí)驗(yàn)室實(shí)現(xiàn)這一愿景 。LeCun的采訪證明了他對(duì)機(jī)器學(xué)習(xí)的熱情和對(duì)未來的信念,以下為整理的采訪內(nèi)容 。
您的工作職責(zé)是什么?
我是的人工智能研究總監(jiān) 。
這個(gè)角色的一部分涉及到數(shù)據(jù)科學(xué),盡管也有其他團(tuán)隊(duì)在做數(shù)據(jù)科學(xué) 。如果你愿意,人工智能研究可以被認(rèn)為是數(shù)據(jù)科學(xué)更先進(jìn)的一面 。我也是紐約大學(xué)的兼職教授,就在我的實(shí)驗(yàn)室對(duì)面 。雖然我現(xiàn)在是一名大學(xué)教授,但我的大部分職業(yè)生涯都是在工業(yè)研究方面 。
早些時(shí)候,我在貝爾實(shí)驗(yàn)室的一個(gè)小組里工作,當(dāng)時(shí),這個(gè)小組致力于機(jī)器學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)和類似的項(xiàng)目 。然后我成為AT&T實(shí)驗(yàn)室的部門主管,這是AT&T在1996年公司分裂后的研究實(shí)驗(yàn)室的名字 。我2003年加入紐約大學(xué),所以我在這里已經(jīng)11年多一點(diǎn) 。我是在2013年底加入的 。
您的職業(yè)生涯是如何形成的?
雖然在我工作過的機(jī)構(gòu)方面沒有明確的途徑,但在我感興趣的技術(shù)問題方面有明確的路徑 。事實(shí)上,我感興趣的是相當(dāng)恒定的,除了很短的時(shí)間 。我從小就對(duì)人工智能和相關(guān)學(xué)科非常著迷 。上世紀(jì)70年代末至80年代初,我讀本科時(shí)學(xué)的是電氣工程 。在這段時(shí)間里,我做了很多項(xiàng)目 , 試圖弄清楚我們是否能讓機(jī)器學(xué)習(xí) 。我一直堅(jiān)信 , 制造智能機(jī)器的唯一方法就是學(xué)習(xí),因?yàn)槊恳环N動(dòng)物都有學(xué)習(xí)的能力 。任何有大腦的東西都能學(xué)習(xí) 。
我通過搜索文獻(xiàn)來解決這個(gè)問題,尋找能夠?qū)W習(xí)的機(jī)器 , 并意識(shí)到,至少在20世紀(jì)80年代初,沒有人在研究這類問題 。我唯一能找到的文獻(xiàn)是20世紀(jì)60年代的,有些是70年代的,但大部分是60年代的 。這是上世紀(jì)50年代神經(jīng)網(wǎng)絡(luò)1.0版的舊作 。像百分率加速器和其他類似的技術(shù)然后是1970年代早期的統(tǒng)計(jì)模式識(shí)別文獻(xiàn) 。但當(dāng)我開始對(duì)這個(gè)研究領(lǐng)域感興趣時(shí),這個(gè)領(lǐng)域已經(jīng)被研究團(tuán)體所拋棄了 。這段時(shí)間有時(shí)被稱為“神經(jīng)網(wǎng)絡(luò)的寒冬” 。
我畢業(yè)了——盡管我的專業(yè)實(shí)際上不是機(jī)器學(xué)習(xí),因?yàn)槟菚r(shí)還沒有機(jī)器學(xué)習(xí)這種東西 。事實(shí)上 , 在那個(gè)時(shí)候的法國(guó),甚至還沒有計(jì)算機(jī)科學(xué) 。我畢業(yè)的專業(yè)是VLSI集成電路設(shè)計(jì)和自動(dòng)控制 。大學(xué)畢業(yè)后,我上了研究生院 。不幸的是 , 我很難找到對(duì)我想做的事情感興趣的人,因?yàn)槲乙呀?jīng)確切地知道我想做什么 。當(dāng)我還在讀本科的時(shí)候,我就已經(jīng)意識(shí)到,早在上世紀(jì)60年代 , 人們一直在追求的東西,卻永遠(yuǎn)無法解決,基本上就是多層神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的概念 。
也許在我讀研究生的兩年前 , 我開始嘗試各種算法 。我提出了一個(gè)最終成為我們現(xiàn)在所說的反向傳播算法的東西——我們每天在上都在非常非常大規(guī)模地使用它——獨(dú)立于David , Paul , David , Geoff 和其他人 。我很難找到研究生院的高年級(jí)學(xué)生來幫助我,因?yàn)檫@個(gè)領(lǐng)域已經(jīng)被遺棄了 。
幸運(yùn)的是,我有一個(gè)很好的顧問,莫里斯·米爾格拉姆,我有自己的資金,基本上是獨(dú)立于我的顧問的 。我的導(dǎo)師很好,他對(duì)我所做的一切都不感興趣,他基本上告訴我,他會(huì)簽署這份文件,因?yàn)槲铱雌饋砗苈斆鳎麕筒涣宋?。
最初是什么激發(fā)了您對(duì)人工智能的興趣?
我出生于1960年 。在我九歲的時(shí)候,火箭飛上了太空,人類登上了月球,《2001太空漫游》問世了,里面有太空和智能電腦 ??苹眯≌f是那個(gè)時(shí)代的精神 。我一直對(duì)科學(xué)感興趣 。當(dāng)我還是個(gè)孩子的時(shí)候,我想,也希望我能成為一名科學(xué)家 。在天體物理學(xué)、古生物學(xué)、神經(jīng)科學(xué)或人工智能之間,我猶豫了——不幸的是,沒有猶豫很長(zhǎng)時(shí)間 。但我確實(shí)是個(gè)工程師 。這是我爸爸給我的 , 他是個(gè)機(jī)械工程師,我喜歡做東西 。
所以當(dāng)我想到做科學(xué)的時(shí)候,我想到的是:我們這個(gè)時(shí)代最大的科學(xué)問題是什么?
一個(gè)問題是:宇宙是由什么構(gòu)成的?天體物理學(xué)和基礎(chǔ)物理學(xué)試圖回答這個(gè)問題 。
另一個(gè)問題是:生活是關(guān)于什么的?哪一種生物學(xué),等等 。
另一個(gè)問題是:大腦是如何工作的?這個(gè)問題是一個(gè)很大的科學(xué)謎團(tuán) 。
如果你是一名年輕的科學(xué)家,還沒有意識(shí)到自己的局限性,那就去做大事吧 。理解智力是一個(gè)很大的問題 。
作為一名工程師,我認(rèn)為大腦是一個(gè)非常復(fù)雜的系統(tǒng) 。
智能是一種非常抽象的東西,它可能可以用數(shù)學(xué)方法來建模,所以我們可以用工程學(xué)的方法來弄清楚大腦是如何工作的,通過嘗試建造智能機(jī)器來驗(yàn)證我們的設(shè)計(jì)或概念想法 。關(guān)于大腦是如何工作的 , 已經(jīng)說了很多 , 有些非常抽象 。但是在你建立一個(gè)真正有效的系統(tǒng)之前,你怎么知道他們是正確的呢?所以至少你有了大部分必要的成分 。這就是我感興趣的科學(xué)問題 。
當(dāng)然 , 我不僅要滿足我建造東西的欲望,我還必須找到工作,在那里我可以開發(fā)好的技術(shù)和做偉大的工作 。這對(duì)我來說很奇怪,但我從來都不清楚我是否會(huì)成為一名學(xué)者 。我
做過——也許我應(yīng)該早點(diǎn)做——但長(zhǎng)期以來,行業(yè)研究對(duì)我來說是一種完美的環(huán)境 。所以我現(xiàn)在又回到這個(gè)話題上了,盡管我也涉足學(xué)術(shù)界,我發(fā)現(xiàn)這兩個(gè)世界在這方面是互補(bǔ)的 。所以我處在一個(gè)非常優(yōu)越的環(huán)境中,我可以在工業(yè)上有1.5英尺,在學(xué)術(shù)上有0.5英尺,這讓我可以利用兩者之間的互補(bǔ) 。在學(xué)術(shù)界,你可以做像計(jì)算神經(jīng)科學(xué)和理論這樣的事情 , 而在工業(yè)界,你可以做一些在學(xué)術(shù)界很難做到的雄心勃勃的事情 。
您使用的第一個(gè)數(shù)據(jù)集是什么?
我研究的第一個(gè)真實(shí)數(shù)據(jù)集是我在做博士研究時(shí)使用的醫(yī)療數(shù)據(jù)集 , 數(shù)據(jù)集來自于對(duì)因腹痛來到急診室的病人進(jìn)行的醫(yī)學(xué)研究 。事實(shí)證明,僅僅根據(jù)腹痛來決定是否手術(shù)是一個(gè)非常困難的診斷 。根據(jù)腹痛,你可以做出大約20種不同的基本診斷 。有些診斷需要非常快的手術(shù),比如闌尾炎 。所以當(dāng)時(shí)有一個(gè)相當(dāng)大的數(shù)據(jù)集,有成千上萬的樣本,有對(duì)病人的基本描述,有缺失的值,諸如此類的東西,你會(huì)預(yù)料到的 。
我采訪過的收集這些數(shù)據(jù)的人都嘗試過樸素貝葉斯和類似的方法 。我嘗試了神經(jīng)網(wǎng)絡(luò) 。神經(jīng)網(wǎng)絡(luò)還不存在,但我基本上嘗試了這個(gè)新奇的東西——反向傳播——我得到了一些相當(dāng)不錯(cuò)的結(jié)果 。這幫助我想出的想法裁剪系統(tǒng)的體系結(jié)構(gòu),它將能夠識(shí)別癥狀,這樣的事情,這是集合的癥狀,以減少系統(tǒng)中的自由參數(shù)的數(shù)量,因?yàn)槲覀冎?甚至在1986年,當(dāng)時(shí),過度擬合是一個(gè)大問題 。
未來的數(shù)據(jù)科學(xué)領(lǐng)域會(huì)是什么樣子?
關(guān)于數(shù)據(jù)科學(xué)的未來,我經(jīng)常說的是,需要注意的最重要的一點(diǎn)是,收集和存儲(chǔ)的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng) 。它要么以通信網(wǎng)絡(luò)帶寬增長(zhǎng)的速度增長(zhǎng),要么以硬盤容量增長(zhǎng)的速度增長(zhǎng) 。它總是兩者之一,這取決于它是流數(shù)據(jù)還是存儲(chǔ)數(shù)據(jù) 。這是一個(gè)非常大的指數(shù) 。目前,當(dāng)你試圖從數(shù)據(jù)中提取知識(shí)邊緣時(shí),循環(huán)中有人類 。地球上人類腦力的數(shù)量實(shí)際上也在呈指數(shù)增長(zhǎng),但是指數(shù)非常非常小 。與數(shù)據(jù)增長(zhǎng)率相比 , 增長(zhǎng)速度非常慢 。
這意味著,不可避免的是——事實(shí)上 , 這種情況已經(jīng)發(fā)生了——地球上已經(jīng)沒有足夠的腦細(xì)胞去觀察或?yàn)g覽這些數(shù)據(jù),更不用說分析數(shù)據(jù)并從中提取知識(shí)了 。所以很明顯,未來世界上的大部分知識(shí)都將被機(jī)器提取出來 , 并將駐留在機(jī)器中 。實(shí)際上可能已經(jīng)是這樣了,這取決于你對(duì)知識(shí)的定義 。對(duì)我來說,知識(shí)是一些數(shù)據(jù)的匯編,使你能夠做出決定 , 而我們今天所發(fā)現(xiàn)的是,計(jì)算機(jī)正在自動(dòng)做出許多決定 。這在未來不會(huì)有任何改善 。
如果我們看數(shù)據(jù)科學(xué)的未來,數(shù)據(jù)科學(xué)是不會(huì)消失的,科學(xué)和現(xiàn)有的工程在從數(shù)據(jù)中提取知識(shí)將是一個(gè)未來的大事情,社會(huì)要依靠 。在某種程度上已經(jīng)是這樣了 。網(wǎng)絡(luò)已經(jīng)依賴于此 。但整個(gè)社會(huì)都將依賴于此 。所以這不是一時(shí)的流行;它不會(huì)消失 。如果你說數(shù)據(jù)科學(xué)是一種時(shí)尚,就像你在1962年說計(jì)算機(jī)科學(xué)是一種時(shí)尚一樣 ??纯次覀儸F(xiàn)在的處境 。
因此,我對(duì)這一現(xiàn)象的看法是,它將創(chuàng)造——當(dāng)然,它創(chuàng)造了一個(gè)我們都知道的產(chǎn)業(yè)——對(duì)這一領(lǐng)域受過教育的人的需求 。這也創(chuàng)造了一種學(xué)術(shù)學(xué)科的需要來處理這個(gè)問題 。這一點(diǎn)有些人還沒有完全理解 。例如,如果你是一名統(tǒng)計(jì)學(xué)家,你會(huì)說,“嗯,那只是統(tǒng)計(jì) 。如果你是一個(gè)機(jī)器學(xué)習(xí)的人 , 你會(huì)說人工智能比較好的書籍,“嗯,那就是機(jī)器學(xué)習(xí) 。”如果你是一個(gè)數(shù)據(jù)庫人員 , 你會(huì)說,“嗯,那只是一個(gè)數(shù)據(jù)庫,上面有一些機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù) 。”如果你是一個(gè)應(yīng)用數(shù)學(xué)的人,你會(huì)說,“所有這些技術(shù)和方法都使用了應(yīng)用數(shù)學(xué) ?!?br />
所有這些人都錯(cuò)了 。它是所有這些東西組合成一個(gè)系統(tǒng):統(tǒng)計(jì)、應(yīng)用數(shù)學(xué)、計(jì)算、基礎(chǔ)設(shè)施和應(yīng)用領(lǐng)域,這些都是那些方法可以應(yīng)用的東西,需要專業(yè)知識(shí) 。因此,像深度學(xué)習(xí)這樣的技術(shù)可以讓我們減少或最小化處理新問題所需的人類專業(yè)技能,這樣機(jī)器就可以盡可能地自己完成任務(wù) 。當(dāng)然,在這一點(diǎn)上,總是有人參與其中 。像數(shù)據(jù)可視化這樣的東西使得人們可以很容易地做這樣的事情,只要循環(huán)中還有人 。然而,最終,這些模型將從本質(zhì)上自行構(gòu)建 。
我堅(jiān)信數(shù)據(jù)科學(xué)是一門新興的學(xué)科 。在紐約大學(xué),我們幫助開創(chuàng)了這一趨勢(shì) , 因?yàn)槲覀兒茉缇蛣?chuàng)建了一個(gè)數(shù)據(jù)科學(xué)中心 。我們也很早就創(chuàng)立了數(shù)據(jù)科學(xué)碩士學(xué)位,這是一個(gè)巨大的成功 。我們得到了摩爾-斯隆數(shù)據(jù)科學(xué)環(huán)境倡議的大力支持,這是摩爾和斯隆基金會(huì)的一個(gè)大型項(xiàng)目 。該計(jì)劃將紐約大學(xué)、華盛頓大學(xué)和加州大學(xué)伯克利分校聯(lián)合起來,目的是將數(shù)據(jù)科學(xué)確立為科學(xué)的一門學(xué)科 。
您對(duì)數(shù)據(jù)科學(xué)的新人有什么建議么?
我總是給同樣的建議 , 因?yàn)槲医?jīng)常被問到這個(gè)問題 。
我的觀點(diǎn)是,如果你是一名本科生,學(xué)習(xí)一門專業(yè),你可以選修盡可能多的數(shù)學(xué)和物理課程 。不幸的是 , 它必須是正確的課程 。我要說的可能聽起來有些矛盾,但工程學(xué)或物理學(xué)專業(yè)可能比數(shù)學(xué)、計(jì)算機(jī)科學(xué)或經(jīng)濟(jì)學(xué)專業(yè)更合適 。
當(dāng)然,你需要學(xué)習(xí)編程,所以你需要上大量的計(jì)算機(jī)科學(xué)課程來學(xué)習(xí)如何編程的機(jī)制 。然后,再做一個(gè)數(shù)據(jù)科學(xué)的研究生項(xiàng)目 。參加本科階段的機(jī)器學(xué)習(xí)、人工智能或計(jì)算機(jī)視覺課程,因?yàn)槟阈枰佑|這些技術(shù) 。然后,在那之后 , 參加所有你能參加的數(shù)學(xué)和物理課程 。尤其是像優(yōu)化這樣的連續(xù)應(yīng)用數(shù)學(xué)課程,因?yàn)樗鼈冏屇銥檎嬲奶魬?zhàn)做好準(zhǔn)備 。
您認(rèn)為數(shù)據(jù)科學(xué)的最大機(jī)遇在哪里?
如果你是一名實(shí)驗(yàn)科學(xué)領(lǐng)域的科學(xué)家,尤其是社會(huì)科學(xué)領(lǐng)域的科學(xué)家,我認(rèn)為在數(shù)據(jù)科學(xué)的方法領(lǐng)域和領(lǐng)域科學(xué)之間存在著大量的機(jī)會(huì) 。這將給很多科學(xué)領(lǐng)域帶來革命性的變化,所以這是一個(gè)非常令人興奮的地方,尤其是在社會(huì)科學(xué)領(lǐng)域 。其他領(lǐng)域,如基因組學(xué)和生物學(xué) , 已經(jīng)先行一步 。
而社會(huì)科學(xué),是一個(gè)充滿機(jī)遇的大領(lǐng)域 。如果人們剛剛開始,我建議他們?nèi)ふ乙恍┯腥さ?、令人興奮的大問題來解決 。當(dāng)然 , 如果你對(duì)方法感興趣,深度學(xué)習(xí)才是關(guān)鍵 。
【世界頂尖數(shù)據(jù)科學(xué)家采訪實(shí)錄——Facebook人工智能研究總監(jiān)】本文到此結(jié)束,希望對(duì)大家有所幫助 。
- 從內(nèi)測(cè)數(shù)據(jù)來看有答案了 ?原神魈和甘雨哪個(gè)強(qiáng)
- 德雷克海峽最寬的地方有970千米 ?世界上最深的海峽
- 10雙世界上最貴的高跟鞋,咱們看看就好!
- 美國(guó)再次公布朝鮮戰(zhàn)爭(zhēng)數(shù)據(jù),傷亡人數(shù)超240萬,與中方數(shù)據(jù)差太多
- 擁有保研資歷的“工業(yè)大學(xué)”排名數(shù)據(jù),11所學(xué)校位居200名之內(nèi)
- 全世界最強(qiáng)的100所大學(xué):哈佛、麻省理工前2,清華、北大未進(jìn)前20
- 西班牙人排的,2023世界大學(xué)排名TOP100
- 金融科技進(jìn)階史:大數(shù)據(jù)、人工智能、區(qū)塊鏈~
- 世界十大最丑陋建筑 中國(guó)10大最丑建筑?
- 嵌入式跟人工智能, 大數(shù)據(jù)比起來, 嵌入式前景怎么樣?
