當前位置:工程項目OA系統(tǒng) > 建筑OA系統(tǒng) > 材料管理軟件
百度稱語音識別技術取得重大突破:超蘋果谷歌
百度首席科學家吳恩達今天宣布,該公司已經(jīng)在語音室被領域取得重大突破,語音識別效果超過了谷歌和蘋果。
當人工智能專家吳恩達今年5月出任百度首席科學家時,他對他和他的團隊可能在加州桑尼韋爾新開設的實驗室中開展什么項目,還顯得有些謹慎。不過,他還是禁不住披露,更加先進的語音識別技術將成為智能手機時代的關鍵。
今天,百度披露了這位谷歌前研究員、斯坦福教授和Coursera聯(lián)合創(chuàng)始人的初步研究成果。在康奈爾大學圖書館的arXiv.org網(wǎng)站上發(fā)表的一篇論文中,吳恩達和阿瓦尼·哈努恩(Awani Hannun)領導的百度研究團隊的10名成員宣布,他們開發(fā)出了一種更加精準的語音識別技術——這項功能對蘋果Siri和谷歌語音搜索的重要性正在與日俱增。吳恩達表示,按照語音識別系統(tǒng)的標準測試來看,百度的Deep Speech語音識別技術已經(jīng)超過了谷歌和蘋果。
具體而言,Deep Speech在嘈雜環(huán)境中的表現(xiàn)好于同類技術,例如汽車內(nèi)或人群中。由于可以大大提升實際的使用效果,因此這項技術顯然十分關鍵。吳恩達表示,在嘈雜的背景中進行測試的結果顯示,Deep Speech的錯誤率比谷歌語音API、wit.ai、微軟必應語音和蘋果Dictation低了10%。
百度還提供了兩位大學教授發(fā)表的正面評論。“百度研究院的這項最新成果有望顛覆今后的語音識別效果。”卡內(nèi)基梅隆大學工程學助理研究教授伊恩·雷恩(Ian Lane)在新聞稿中說。蘋果和谷歌尚未對此置評。
與其他語音識別系統(tǒng)一樣,百度這項技術的基礎也是一個名為“深度學習”的人工智能分支。這款軟件試圖以非常原始的方式模擬大腦新皮層的神經(jīng)元活動——約有80%的大腦活動發(fā)生在那里,所以深度學習系統(tǒng)可以識別出數(shù)字形態(tài)的聲音、圖像和其他數(shù)據(jù)。“第一代深度學習語音識別技術已經(jīng)達到極限。”吳恩達說。
百度團隊搜集了9600人的7000小時語音內(nèi)容,多數(shù)都是在安靜環(huán)境下搜集的——但測試者有時也會佩戴播放嘈雜背景音的耳機,使得他們就像在嘈雜環(huán)境中一樣改變語調(diào)。他們后來使用名為“疊加”的物理學定律增加了15種噪音,包括酒店、汽車和地鐵中的環(huán)境噪音。這相當于把樣本數(shù)據(jù)擴大到10萬小時。隨后,他們讓系統(tǒng)學會在各種噪音中識別語音。
吳恩達表示,這遠比目前的語音識別系統(tǒng)簡單得多。他們使用了一系列模塊來分析音素和其他語音內(nèi)容。這通常需要通過名為“隱馬可夫模型”的統(tǒng)計概率系統(tǒng)來手工設計模塊,這就需要大量人手來進行校準。而百度的系統(tǒng)用深度學習算法取代了這些模型。這種算法可以在遞歸神經(jīng)網(wǎng)絡上進行訓練,從而大大降低了系統(tǒng)的復雜性。
但真正令這種模式奏效的是強大的新型計算機系統(tǒng),其中配備了很多Nvidia的GPU。GPU在個人電腦中用來加速圖形。由于采用并行設計,因此它們在訓練識別模型時的速度和成本遠好于標準的電腦處理器——大約比吳恩達在斯坦福和谷歌時使用的系統(tǒng)快40倍。“算法很重要,但成功有很大一部分歸因于可擴展性。”他說,這既包括電腦系統(tǒng)的可擴展性,也包括其數(shù)據(jù)處理量的可擴展性。
倘若達不到這種速度,就無法迅速分析各種數(shù)據(jù)。吳恩達表示,該系統(tǒng)的復雜程度超過當今的其他GPU系統(tǒng)。“我們已經(jīng)進入語音識別2.0時代,”他說,“現(xiàn)在才剛剛開始。”
吳恩達認為,隨著用戶越來越偏向語音指令,而拋棄文字模式,因此語音識別的重要性還將與日俱增。“讓他們對我們說話是關鍵。”他列舉了中國最近的一條搜索命令:“你好,百度。我昨天中午街邊吃了面條。明天還賣不賣?”吳恩達承認,現(xiàn)階段回答這一問題的難度非常大,但他認為語音技術的進步是關鍵。
物聯(lián)網(wǎng)的發(fā)展也是關鍵所在,它將把所有的“啞巴”設備引入線上。他認為,當他的孫子得知我們?nèi)缃袷褂玫碾娨暀C和微波爐都不支持語音指令時,可能會感到十分驚訝。“語音是物聯(lián)網(wǎng)的關鍵技術。”他說。
吳恩達拒絕透露百度需要多久才能將這項新技術整合到搜索和其他服務中。但在被問及這是否需要花費很多年時,他卻很快回應道:“肯定不需要!”所以,這項技術有望在明年投入使用。這項技術可能應用到百度Cool Box中,為用戶提供語音音樂搜索服務。
吳恩達的團隊成員約有30人,明年還將翻番,他們的目標是幫助百度躋身全球頂尖互聯(lián)網(wǎng)公司之列。雖然目前主要服務于中國市場,但該公司卻計劃向全球擴張,包括開發(fā)世界級的語音識別、翻譯和其他功能。
- 1武漢一工地樁基施工發(fā)生塌方
- 2某大橋(投標)施工組織設計
- 3民用建筑結構設計初探
- 4樓梯扶手設計方法
- 5二級建造師《市政工程》:地鐵及軌道工程常見圍護結構的施工特點
- 6混凝土攪拌站報價 參數(shù) 圖片_混凝土攪拌站
- 72009年建筑業(yè)人才市場展望
- 82015房地產(chǎn)估價師知識點整理:動產(chǎn)質權基本權利
- 9橋梁支座和伸縮裝置檢驗
- 10二級公路施工組織設計方案41p
- 11某小區(qū)住宅樓工程施工組織設計 121p
- 122015年造價工程師工程計價知識點:定額單價法
- 13某學院教學樓施工組織設計31P
- 14二級建造師《市政工程》:沉入樁的施工技術要求
- 15某內(nèi)河道疏浚工程岸坡穩(wěn)定性分析和護岸擋墻初步設計
- 162015年造價工程師工程計價知識點:單項工程投資估算匯總表的編制
- 172009年中國大型型鋼分省市產(chǎn)量統(tǒng)計數(shù)據(jù)
- 18山西某住宅工程安全專項施工方案
- 19某小學學生公寓樓施工組織設計
- 20高速公路隧道洞口段仰坡沉降變形監(jiān)測分析與預測
- 21中鐵十四局集團云桂鐵路田東制梁場架梁現(xiàn)場紀實
- 222015年房地產(chǎn)估價師《制度與政策》: 預告、更正、異議登記
- 23談剪力墻結構設計中的幾個問題
- 24北歐四國的熱電聯(lián)產(chǎn)
- 25有使用220伏的混凝土攪拌機嗎?
- 262014年1-8月全國冷軋薄板產(chǎn)量及其增長統(tǒng)計表
- 27復合鋼格板3mm
- 28攪拌站設備運行手動操作步驟總結
- 292015房地產(chǎn)估價師學習輔導:住房公積金的繳納規(guī)定
- 30橋梁工程評定資料軟件
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓