近日百度宣布在一部超算系統(tǒng)Minwa上部署了深度學(xué)習(xí)算法,進而在ImageNet圖像識別測試中取得了只有5.98%錯誤率的新紀錄。無獨有偶,F(xiàn)acebook也剛剛宣布對部分深度學(xué)習(xí)代碼開源,以推進這項技術(shù)在業(yè)界的普及。深度學(xué)習(xí)這個概念越來越頻繁地出現(xiàn)在媒體報道中,那么究竟什么是“深度學(xué)習(xí)”,它又對我們的生活有什么影響與好處呢?
讓計算機擁有接近人類的智能水平是IT行業(yè)最偉大,也是最難實現(xiàn)的夢想。雖然科幻作品中早就出現(xiàn)了匹敵甚至遠超人類智能水平的計算機、機器人,但尷尬的是現(xiàn)實中的計算機技術(shù)即使經(jīng)過六十余年的指數(shù)發(fā)展也仍然與真正的“智能”相去甚遠。甚至一只小鳥的大腦都要比現(xiàn)時最強大的超級計算機聰明許多。雖然計算機擁有恐怖的計算能力、數(shù)據(jù)存儲空間,但是一直以來這些能力卻難以用來模擬復(fù)雜的思維,而只能執(zhí)行既定的運算任務(wù)。
“深度學(xué)習(xí)”是通往人工智能的漫漫長路上的一項重要的技術(shù)。“深度”是一種專業(yè)術(shù)語,表示將某種復(fù)雜問題分解成簡單問題的層數(shù)。深度學(xué)習(xí)可以理解為將一項復(fù)雜的概念抽象為多層簡單概念的疊加,然后通過簡單概念的判斷和學(xué)習(xí)來理解復(fù)雜的整體。例如讓計算機從一張圖片上識別出一只小狗,過去的做法是由人給圖片加注“圖中有萌犬一只”之類的標簽,然后計算機根據(jù)標簽來進行分類?;谏疃葘W(xué)習(xí)算法的系統(tǒng)的做法完全不同:給計算機大量的有小狗內(nèi)容的圖像,然后系統(tǒng)會自動從這些圖像中總結(jié)規(guī)律:所有的圖像中都有一團物體、這些物體都有幾條腿、有尾巴、有腦袋、腦袋上有兩只可愛的眼睛……經(jīng)過大量的訓(xùn)練,計算機最終總結(jié)出“小狗”的圖像特征,之后就可以自動識別出圖像是否包含這些特征。這一學(xué)習(xí)過程不需要人類的太多參與,基本上是自動化的。與過去簡單的“標簽識別方式”相比,深度學(xué)習(xí)是對動物大腦神經(jīng)網(wǎng)絡(luò)的一種簡化模擬,離“智能”的目標更近了一步。
深度學(xué)習(xí)技術(shù)對現(xiàn)代IT產(chǎn)業(yè)意義非凡。隨著PC、智能手機的廣泛普及,互聯(lián)網(wǎng)上產(chǎn)生了大量需要計算機來處理的數(shù)據(jù)。用戶對數(shù)據(jù)處理的水平要求也不斷增加。諸如復(fù)雜圖像識別、語音識別、自動翻譯等應(yīng)用的需求越來越強烈,而這些正是深度學(xué)習(xí)技術(shù)大顯身手的時候。大型計算機網(wǎng)絡(luò)可以通過海量數(shù)據(jù)的訓(xùn)練不斷提升自己的認知水平,進而完成許多過去只能由人工完成的工作。
典型的例子就是谷歌、蘋果和微軟等企業(yè)推出的智能語音助手服務(wù)。這些服務(wù)將用戶的語音指令發(fā)送到數(shù)據(jù)中心,并由中心的計算集群進行分析、處理,再將結(jié)果傳回終端設(shè)備。這一過程中最困難的一步就是識別用戶指令的實際含義,傳統(tǒng)的算法在這里很難起到作用,解決方案就是深度學(xué)習(xí)。使用這些服務(wù)的用戶越多、系統(tǒng)得到的訓(xùn)練越多,整體服務(wù)質(zhì)量就會越高。類似的應(yīng)用還包括谷歌、百度等提供的智能識圖服務(wù)、在線翻譯服務(wù),電商網(wǎng)站的機器人客服,以及堪稱革命的無人駕駛技術(shù)等。
由于深度學(xué)習(xí)需要海量數(shù)據(jù)作為訓(xùn)練系統(tǒng)的“材料”,那些擁有大量用戶資源的大企業(yè)在這一方面無疑有先天優(yōu)勢。目前,全球范圍內(nèi)發(fā)展這一技術(shù)的領(lǐng)跑者就是谷歌、Facebook、蘋果、百度、騰訊等企業(yè)。其中,谷歌、蘋果的相關(guān)服務(wù),尤其是語音助手服務(wù)已經(jīng)部署較長時間,也獲得了大量的用戶反饋。國內(nèi)企業(yè)中,百度在這一領(lǐng)域耕耘較深,不僅模仿谷歌的“谷歌大腦”計劃建立了“百度大腦”團隊,還在百度識圖、百度翻譯等服務(wù)中應(yīng)用了深度學(xué)習(xí)技術(shù)并取得了不錯的成果。不過從實際使用體驗來說各大企業(yè)的深度學(xué)習(xí)技術(shù)仍處于發(fā)展初期階段,服務(wù)質(zhì)量與用戶的心理預(yù)期仍相去甚遠。蘋果的Siri上線后就經(jīng)常被用戶“調(diào)戲”,總是難以真正理解操作者的意圖;百度測試上線圖像內(nèi)容自動識別服務(wù)后也陷入類似的尷尬:由于識別率較差,多數(shù)用戶僅僅是將它當作是娛樂消遣的玩具嘗鮮而已??傊?,深度學(xué)習(xí)離改變我們的生活還有很長的路要走。
最近幾年,基于GPU運算的深度學(xué)習(xí)算法成為這一領(lǐng)域的大趨勢。此次百度創(chuàng)下新紀錄的圖像識別系統(tǒng)即是運行在GPU服務(wù)器集群上。GPU運算速度的快速提升也讓深度學(xué)習(xí)技術(shù)有了硬件層面的有力支持。業(yè)界對這一技術(shù)的重視也鼓勵研究者不斷開發(fā)出更優(yōu)秀的算法與模型。預(yù)計未來數(shù)年內(nèi),深度學(xué)習(xí)技術(shù)就將在多個領(lǐng)域真正實用化,造福廣大消費者。雖然深度學(xué)習(xí)離真正的人工智能仍有較大距離,但它總算能讓計算機有一點“聰明”的樣子了。