各位大佬,別再拿人工智能當春藥了!觀點

砍柴網(wǎng) / @北冥乘海生 / 2016-06-14 10:28
春藥吃下去,High是能High一陣,但精盡人亡就不好了。那些把人工智能捧成耶和華一般的行業(yè)分析師與大佬,是十分值得警惕的:我敢斷言,當此領(lǐng)域再遇波折,將“人工智能”這...

各位大佬,別再拿人工智能當春藥了!

文/@北冥乘海生

說到人工智能和機器人,上點兒歲數(shù)的碼農(nóng)們可能對封面這張圖有點印象。不明就里的朋友,可以回去補習一下《編輯部的故事》。

我是個二手的人工智能表演藝術(shù)家:從博士畢業(yè)開始,就在MSRA做了幾年語音識別項目的研究。雖然我們的兩任院長——李開復(fù)老師和洪小文老師都是語音研究出身,卻絲毫不能改變當年這一項目在全院最雞肋的地位。

為什么雞肋呢?因為在當年,各種各樣的人工智能應(yīng)用能真刀真槍上陣的并不多。就拿語音識別來說,從幾十年前IBM和AT&T提出人類用語音與機器交互這一偉大的設(shè)想以來,就有無數(shù)的業(yè)內(nèi)業(yè)外人士為之激動、為之奮斗,也為之失望。

我們都知道新技術(shù)的發(fā)展有條Gartner曲線,先被炒得大熱,再跌下來,又慢慢爬坡到穩(wěn)定的狀態(tài)。語音識別或人工自然則不然:它被爆炒了好幾次,也深深地摔下來好幾次。這一方面反映了人工智能問題的巨大吸引力,也體現(xiàn)了它巨大的難度。在我從事語音的那幾年,恰逢一個谷底時期,那是有無數(shù)的“有識之士”紛紛站出來表達對互聯(lián)網(wǎng)糙快猛的膜拜,并夾槍帶棒地表達對人工智能的鄙夷,認為我們不過是馬勺上的蒼蠅——混飯吃的。我們要是向互聯(lián)網(wǎng)界提起自己是做“語音識別”的,也放佛在兩會會場上上偷看了毛片那樣無地自容。

然而不得不說,在真正從事人工智能的那幾年里,我接觸到了到目前為止看來最嚴謹、最具學(xué)者風范的幾位良師和益友。比如我第一任的老板,Bell Labs來的資深科學(xué)家宋謌平老師、第二任的老板,原港大教授霍強老師、以及多年的好友,現(xiàn)科大訊飛執(zhí)行總裁胡郁等。這些人工智能專家身上都有一種共同的特質(zhì):思維深邃又有獨立見解,長期甘守寂寞,在人工智能的低潮期從未放棄探索與研究。

那么事情是什么時候發(fā)生轉(zhuǎn)折的呢?2010年前后,我以前微軟的同事俞棟老師、鄧力老師等,將深度學(xué)習在圖像領(lǐng)域的突破移植到語音識別領(lǐng)域,一下子把識別錯誤率降低了20%以上,這讓原來感覺總是差點兒火候的語音識別突然看到了在某些場景下實用的希望。從圖像、語音等領(lǐng)域的突破開始,人工智能的一個新春天又悄然來臨,同時也火了“深度學(xué)習”這個詞。

“深度學(xué)習”這個詞兒,實在是太美妙了,不是有鄧麗君的一句歌詞么?“你問我愛你有多深?我愛你八公分!”深,就意味著莫測,意味著正常人的智商大概難以企及。正常人不明白的事兒從我嘴里說出來,那我不牛逼誰牛逼?就是因為這樣一個逼格甚高的詞兒(有點兒像廣告領(lǐng)域的“程序化交易”),再加上若干人工智能應(yīng)用確實有了一定的突破,在今天,人工智能已經(jīng)替代大數(shù)據(jù)、O2O,成為互聯(lián)網(wǎng)各位賣野藥的、開秀場的、搞劫持的、做流氓軟件的諸企業(yè)家們最好的春藥。

在春藥的加持下,大佬們紛紛把自己滿肚子的互聯(lián)網(wǎng)思維嘔吐出來,擺出一副智能仁波切的嘴臉,像念“嗡嘛呢叭咪吽”那樣把“人工智能、深度學(xué)習、機器人、無人駕駛”等詞匯擺在嘴邊,并且具備了時刻達到高潮的能力。我曾經(jīng)有幸聽過幾位大佬有關(guān)人工智能的論述和演講,據(jù)說他們都已經(jīng)成為人工智能先驅(qū)者一個多禮拜了。就內(nèi)容而言,有一種郭德綱做政府工作報告的莫名喜感,只不過沒有那么密集的包袱罷了。

在智商不夠的人看來,一切都是智能的。于是乎,一些充滿了邪教氣息的論斷,在互聯(lián)網(wǎng)界開始甚囂塵上,例如:

“機器學(xué)習模型依靠左右互搏,可以迅速達到很高的智能水準。”(說他們智商低,是因為這一點他們真信了。)

“人工智能毀滅人類的奇點即將來到!”(我認為機器早就能毀滅人類了,不過這跟人工智能并沒有關(guān)系。)

“只有人工智能才能拯救人類!”(潛臺詞是:只有我這樣人工智能的使者才能拯救你們?。?/strong>

“我們的產(chǎn)品融合了大數(shù)據(jù)和人工智能技術(shù)。”(其實多數(shù)情況下不過是用hadoop跑了個腳本。)

作為一個知識分子,我是不太擅長罵人的。咱們還是先講講道理,看看深度學(xué)習到底解決了什么,還有哪些挑戰(zhàn)。

實際上,到今天為止,無論什么樣的機器學(xué)習,本質(zhì)上都是在統(tǒng)計數(shù)據(jù),從中歸納出模型。實際上,很早以前大家就認識到,深層的神經(jīng)網(wǎng)絡(luò)比起淺層的模型,在參數(shù)數(shù)量相同的情形下,深層模型具有更強的表達能力。這個概念說起來也好理解:用同樣的面積的鐵皮,做個桶比做個盤子盛的水要多一些。對此,馬三立大師早有論述:碗比盤深,盆比碗深,缸比盆深,最淺的是碟子,最深的是缸。而盤子或桶里的水,則類比于模型可以接納并總結(jié)的數(shù)據(jù):太淺層的模型,其實很容易自滿,即使有大量的數(shù)據(jù)灌進去,也并沒有什么卵用。

既然很早就知道深層模型的表達能力更強,那么為什么近年來深度學(xué)習才大放異彩呢?那是因為桶雖然盛水多,我們以前卻沒有掌握將它高效率地灌滿的辦法。也就是說,以前對深度神經(jīng)網(wǎng)絡(luò),沒有太有效的工程優(yōu)化方法。一個大桶擺在那兒,卻只能用耳挖勺一勺勺往里灌水,多怎才能灌滿???直到本世紀,Geoffrey Hilton和他的學(xué)生發(fā)明了用GPU來優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的工程方法,這就好比灌水時發(fā)明了水管,極大地提高了效率。這樣的工程方法產(chǎn)生后,深度神經(jīng)網(wǎng)絡(luò)才變成工業(yè)界實用的武器,并且在若干領(lǐng)域都帶來了里程碑式的變化。

桶有了,水管也有了,還缺什么呢?當然就是水了。對深度學(xué)習模型而言,水就是海量的數(shù)據(jù)。比方說原來用淺層的模型做人臉識別,訓(xùn)練樣本到了一定的規(guī)模,再多就沒有用了,因為盤子已經(jīng)灌滿了,再灌就盛不了了。可是,改用深度學(xué)習,再加上有了水管以后,數(shù)據(jù)一直往里面灌,模型還是可以繼續(xù)學(xué)習和提高。就拿機器識別物體這樣的任務(wù)來說,通過數(shù)百萬副圖片的訓(xùn)練,深度學(xué)習模型甚至可以超過人的肉眼的識別能力,這確實是人工智能在感知類問題上重要的里程碑。

然而,上面的例子提醒我們:人工智能和人的智能,還真的不是一回事。幾歲的小孩子,大人給他指過一次貓,下次他十有八九就能認出來。然而不論是多強的人工智能模型,也不可能看幾張貓的圖片,就能準確地認識貓。也就是說,深度神經(jīng)網(wǎng)絡(luò)的“智能”,是建立在海量數(shù)據(jù)基礎(chǔ)之上的,因此,深度學(xué)習與大數(shù)據(jù),有著非常緊密的內(nèi)在聯(lián)系。

關(guān)于深度學(xué)習,還有一個有趣的現(xiàn)象。就目前情況來看,深度學(xué)習技術(shù)在互聯(lián)網(wǎng)應(yīng)用(例如廣告、推薦等)上取得的提高,沒有語音圖像這些領(lǐng)域那樣顯著。這里面有什么規(guī)律性的解釋么?個人認為,自然現(xiàn)象的數(shù)據(jù)處理,例如語音識別,我們完全可以通過主動的語料采集,讓各個phoneme甚至biphone、triphone都挺有充分的覆蓋;而互聯(lián)網(wǎng)收集的社會行為,例如廣告點擊、新聞閱讀這些數(shù)據(jù),Ground truth并不清晰:即使對于同一個人、同一則廣告、同一個廣告位,點擊與否也是個很不確定的事件,而這樣的不確定性即使引入再多的上下文信息,也不可能消除。而引入了大量的上下文信息(即模型需要的feature)后,在每個片段上的數(shù)據(jù)實際上非常稀少,并不能滿足深度學(xué)習模型徹底進化的需要。怎么解決這個問題呢?最近爆火的Alphago采用的deep reinforcement learning方法論,或有是個啟發(fā)。

以上種種人工智能技術(shù)經(jīng)歷的磨難與輝煌,乃至更加波瀾壯闊的未來,都需要參與者們抱定一顆平常心,以十年磨一劍的決心和毅力去攻克一個個產(chǎn)品與技術(shù)難關(guān)。同時,這需要對于科學(xué)技術(shù)真正的信仰與堅持,因為人工智能不同于賣盒飯或者搞劫持,凡小學(xué)肄業(yè)以上文化程度,對手段之道德底線無特殊要求者皆可以勝任,它需要對于科學(xué)技術(shù)真正的信仰與堅持,對于背景理論多年的修養(yǎng)與磨練,遠非看上去那樣簡單美好。

資本與大佬們對于人工智能的追捧,當然不能說是壞事。不過說實話,在里面確實也能多少嗅出一些單純追逐風口、順風接屁的惡趣味。這個領(lǐng)域已經(jīng)被捧殺了好幾回,好不容易有些轉(zhuǎn)機,還是給大家正確的普及、合理的預(yù)期比較重要。就拿語音識別來說,Benchmark集合上詞正確率的提升,其實并不意味著人機直接用語言進行交流已經(jīng)可以暢通無阻:各種復(fù)雜噪音環(huán)境下的魯棒性問題、自然語言理解的巨大挑戰(zhàn)、找到適合語音交流的殺手級應(yīng)用場景,這些都是當我們推門以為豁然開朗時,又發(fā)現(xiàn)橫亙在面前的王屋與太行。理性的人工智能從業(yè)者,不要輕信各種花色品種的大佬們場外吃了春藥后的搖旗吶喊——因為你并非正要向終點沖刺,而是剛剛踏上跑道。

(圖片來自@南大周志華 老師微博)

春藥吃下去,High是能High一陣,但精盡人亡就不好了。那些把人工智能捧成耶和華一般的行業(yè)分析師與大佬,是十分值得警惕的:我敢斷言,當此領(lǐng)域再遇波折,將“人工智能”這四個字踩在腳下、惡狠狠淬上一口的,還會是這一撥人。而其中有些個別人惡俗的熱捧,則可以說是人工智能的恥辱——西施長得好不好,是不需要八大胡同的選美比賽來品頭論足的。

作者:@北冥乘海生 微信公眾號:計算廣告(Comp_Ad)



1.砍柴網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標注作者和來源;2.砍柴網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:砍柴網(wǎng)",不尊重原創(chuàng)的行為砍柴網(wǎng)或?qū)⒆肪控熑危?.作者投稿可能會經(jīng)砍柴網(wǎng)編輯修改或補充。


閱讀延展



最新快報