新聞(wén)資訊
公(gōng)司新聞

網站首(shǒu)頁 > 公司新聞

百度為(wéi)何開源深度機器(qì)學(xué)習平台?

5月20日,百度在github上開源了其深度機器學習平(píng)台。此番發布的深(shēn)度機器學習(xí)開源平台屬于“深盟”的開源組織,其核心開發(fā)者來自百度深度學習研究院(IDL),微軟亞洲研究院、華盛頓大學、紐約大學、香港科技大學,卡耐基·梅隴(lǒng)大學等知名公司和(hé)高校。

通過這一開(kāi)源平台,世界各地的開發者(zhě)們可以(yǐ)免費獲得更優質和更容易使用的分布式機器學習算法源(yuán)碼,從而大(dà)幅降低開發和部署分布式機器學習系統及相關應(yīng)用的門檻。包括今(jīn)日頭條、汽車之家(jiā)等在内的多家公司已經通(tōng)過該開放平台受益。

作為(wéi)在人工智能布局較早的玩家,百度(dù)擁有(yǒu)領先業界的實力(lì)。從2013年百度(dù)深度學習研究院(IDL)的創建及(jí)2014年Andrew Ng的加盟(méng)至今,百度(dù)DMLC分布式深(shēn)度機器學習開源項目(簡稱“深盟”)已在深度學習的多個應用領域做(zuò)過探索,上線(xiàn)了如xgboost(速度快效果好的Boosting模型)、CXXNET(極緻的C++深度學習(xí)庫)、Minerva(高效靈活的并行(háng)深度學習引擎)以及Parameter Server(一小時訓練600T數(shù)據)等産品,在語音識(shí)别、OCR識别(bié)、人臉識别以及計(jì)算效率提升上(shàng)發布了多個成熟産(chǎn)品。

而具有(yǒu)一系列領先優勢的百度卻選擇開源其(qí)深度機器學習平台(tái),為何交底自己的核心技術?

深(shēn)思之下,卻是在面對業界無奈時的遠見之舉(jǔ)。

擁抱世界:開源的魅(mèi)力(lì)

開源,顧名(míng)思義,就是開放自己的源代碼給别人查閱和使用,盡管看(kàn)起來很傻,然而(ér)諸多曆史事實卻告訴我們擁抱世界也能讓世界擁抱你。

Android的逆襲(xí)就是明證,在iOS侵占絕大多數智能手機操作系統的時代(dài)誕生,Google選擇開源,讓早已在蘋果面前沒有機會的業界見到了希望,至(zhì)今(jīn)Android已擁有過半的(de)市場(chǎng)份額(é),以至于在移動互聯網大(dà)行其道的今天,Google可以憑借它與旗下(xià)産品的整合打造屬于自(zì)己的強大(dà)生态系統。相比之下(xià),生而嬌貴(guì)的Windows mobile的故事夠令人發醒的,終于微軟也不(bú)得不寄人籬下地去兼容Android和iOS平台(tái)應(yīng)用。此外,作為微軟最主要的應用程(chéng)序框架(jià),微(wēi)軟對.net寄予厚望,希(xī)望它的開源可以來到所有平台,進而重現JAVA的光輝曆史。這也證(zhèng)明了即使強大(dà)如微(wēi)軟也無法憑借一己之力讓其産品得到世界的擁抱。

衆人拾材火(huǒ)焰高:用平台籠絡世界的力量

要實(shí)現人工智能,機(jī)器必須具備自主學習能力,深度學習作為機器學習領域的重大突破,可以完成具有高度(dù)抽象特(tè)征的人工智能任務,如自然(rán)語言理(lǐ)解等複(fú)雜場景,因而備受業界追捧。當然,機器學習領域并(bìng)不隻是有深度學習這一種算法的(de)存在(zài),然而深度學(xué)習卻有着顯著的優勢:在數據集足夠大的情況下,深度學習擁有最好的預測能力。盡管在算(suàn)法的選擇上仍然存在“殺雞焉用宰牛刀”的争論,但深度(dù)學習算法為人(rén)工智能(néng)領(lǐng)域注入的強大能力(lì)卻是其他算法無以比拟的;同(tóng)時,随着深度學習技術的成熟,諸多傳統機器(qì)學習算法的淘汰幾乎是必然的。然(rán)而正如前(qián)述,深度學(xué)習對大量數據的需求及其本身的複雜性仍然是(shì)其發展壯大路上的最大(dà)阻礙,也是業界(jiè)的無奈所在。

百度在此領域(yù)發力較早,且在諸多方向上進行了深入的(de)研究,利用深入學習結合(hé)自身搜索引擎(qíng)的大數(shù)據讓機器翻(fān)譯及(jí)自然(rán)語言等技術(shù)實現了新的飛躍(yuè)。然而在面向更廣(guǎng)大更具體的應用場(chǎng)景時,任何一個公司都(dōu)難以滿足所有需(xū)求。借(jiè)鑒曆史(shǐ),開放共赢(yíng)不僅可以把事情做的,也讓業界和生态(tài)系統得到健康發展。

百度此次開源也是完全奔(bēn)着建平台去(qù)的。完全采用C++語(yǔ)言搭建核心,為平台的穩(wěn)定高效運行奠定了基礎;覆蓋(gài)了三類最常用的機器學習算法,包括用于點擊預測的稀疏線性模型、用于排序的(de)決策樹模型(xíng)以及深入學習,滿足了最廣大的需求;重點(diǎn)開發的“蟲洞(dòng)”項目将自動構建深(shēn)盟所有項(xiàng)目,為所有組件(jiàn)提供一(yī)緻的數據流支持(chí)且提供包括Amazon EC2,Microsoft Azure, Google Compute Engine在内(nèi)的雲計算平台兼容支持,降低平(píng)台的(de)準入門檻。

開源(yuán)并入駐Github也進一步強調了其開放的心态(tài)和對平台的(de)信心。一系列的動作都是希望讓(ràng)開(kāi)發者可以獲得更(gèng)優質更容易使用的深入(rù)學習算法(fǎ)源(yuán)碼,降低開(kāi)發和部(bù)署深入學習系統及(jí)相關應用的(de)門檻,進而利(lì)用世界的力量壯大自身。

面對可預料的爆發,技術一定程度上漸發成熟,但(dàn)也因為各自的技術(shù)基因和路線差異,面臨着極大的分裂傾向(xiàng)。開放的心态擁抱世界,打造(zào)機器學(xué)習領域的國際标準,百度(dù)的此舉既是對前(qián)期研究投入的回收保障,更是攜手籠絡(luò)友商,确保自身的話(huà)語權所在(zài)。