當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 湖南OA系統(tǒng) > 長(zhǎng)沙OA系統(tǒng) > 長(zhǎng)沙OA軟件行業(yè)資訊
語(yǔ)音識(shí)別:讓你的手機(jī)更聰明
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
文章來(lái)源:泛普軟件當(dāng)語(yǔ)音識(shí)別技術(shù)最早開(kāi)始被應(yīng)用到電腦桌面時(shí),不少人對(duì)這項(xiàng)技術(shù)信心十足,認(rèn)為將它全面替代鍵盤和鼠標(biāo),開(kāi)啟一個(gè)新的交互時(shí)代。多年過(guò)去了,這一幕始終沒(méi)有出現(xiàn),語(yǔ)音識(shí)別技術(shù)始終處于不溫不火的狀態(tài)。而現(xiàn)在,隨著智能手機(jī)的流行,語(yǔ)音識(shí)別技術(shù)重新看到了成為主流應(yīng)用的希望。這一次,其應(yīng)用和研發(fā)的推動(dòng)力明顯不同于電腦領(lǐng)域。
在手機(jī)上更有市場(chǎng)
語(yǔ)音識(shí)別最早出現(xiàn)在20世紀(jì)50年代,進(jìn)入60年代早期,IBM曾研究出一種可以識(shí)別16個(gè)單詞的設(shè)備,并且能做簡(jiǎn)單的算術(shù)運(yùn)算。到20世紀(jì)80年代美國(guó)Dragon Systems公司推出了首個(gè)面向PC的語(yǔ)音識(shí)別技術(shù)DragonDictate。它只能識(shí)別單個(gè)單詞,要求一次只讀一個(gè)?,F(xiàn)在這個(gè)產(chǎn)品還在(屬于Nuance公司),已經(jīng)有了11版,可以識(shí)別正常語(yǔ)速的對(duì)話。
語(yǔ)音識(shí)別之所以一直難以在桌面領(lǐng)域流行,有兩個(gè)重要限制因素。首先,為了保證識(shí)別迅速而且準(zhǔn)確,系統(tǒng)必須接受訓(xùn)練以建立用戶的語(yǔ)音模式,如Vista、Windows 7自帶的語(yǔ)音識(shí)別軟件都需要給系統(tǒng)一定的學(xué)習(xí)時(shí)間來(lái)識(shí)別用戶的發(fā)音。第二個(gè)因素是鍵盤的流行,大多數(shù)人已經(jīng)習(xí)慣打字而不是說(shuō)話。
而語(yǔ)音識(shí)別技術(shù)要流行需要兩個(gè)條件:一個(gè)是語(yǔ)音識(shí)別軟件簡(jiǎn)單易用,另一個(gè)是某種場(chǎng)合只能說(shuō)話而使用鍵盤很不方便。而這種場(chǎng)景已經(jīng)出現(xiàn),并且出現(xiàn)了很長(zhǎng)時(shí)間,這就是移動(dòng)電話領(lǐng)域。
Nuance產(chǎn)品和市場(chǎng)高級(jí)副總裁Matt Revis解釋了桌面和移動(dòng)環(huán)境的不同:“桌面是一個(gè)固定的環(huán)境,桌面環(huán)境中的語(yǔ)音識(shí)別技術(shù)主要用于完成辦公軟件、網(wǎng)頁(yè)瀏覽、通信移動(dòng)等應(yīng)用,而移動(dòng)環(huán)境則完全不同,用戶可能在室外正處于移動(dòng)狀態(tài),而且需要免提?!?/P>
Gartner分析師Tuong Nguyen也認(rèn)為語(yǔ)音識(shí)別在移動(dòng)場(chǎng)景中更有價(jià)值:“從使用的角度看,語(yǔ)音識(shí)別在手持設(shè)備的價(jià)值要大得多。因?yàn)樗峁┝艘粋€(gè)用戶友好、直觀的輸入方法,特別是對(duì)那些沒(méi)有實(shí)體鍵盤的觸摸屏手機(jī)而言?!?/P>
由于移動(dòng)設(shè)備通常只有較小的存儲(chǔ)空間和比較有限的計(jì)算機(jī)能力,所以,語(yǔ)音識(shí)別在手機(jī)上的應(yīng)用也經(jīng)歷了一個(gè)發(fā)展過(guò)程。早期的語(yǔ)音識(shí)別應(yīng)用非常簡(jiǎn)單,主要用于識(shí)別號(hào)碼進(jìn)行撥號(hào)。當(dāng)今的手機(jī)內(nèi)存已經(jīng)達(dá)到了幾百兆,另外還有GB級(jí)別的閃存,對(duì)語(yǔ)音識(shí)別技術(shù)的限制已經(jīng)很少。語(yǔ)音識(shí)別能力提高的另一個(gè)條件是網(wǎng)絡(luò),網(wǎng)絡(luò)帶寬的增加使得我們可以把一些處理放到遠(yuǎn)程服務(wù)器上完成。
如今手機(jī)上的語(yǔ)音識(shí)別技術(shù)已經(jīng)遠(yuǎn)不止語(yǔ)音撥號(hào)。主要包括以下三個(gè)方面:
聲控:語(yǔ)音撥號(hào)就是聲控功能的一種,過(guò)去聲控功能只能編輯幾條固定的命令讓手機(jī)完成指定的動(dòng)作,而現(xiàn)在則要強(qiáng)大得多,而且不用預(yù)先編輯,手機(jī)可以執(zhí)行相應(yīng)的動(dòng)作。比如,對(duì)手機(jī)說(shuō)“撥12345”或者“給媽媽撥號(hào)”等,它就可以完成撥號(hào)。
語(yǔ)音轉(zhuǎn)文字:iPhone上有一個(gè)Dragon Dictation的應(yīng)用程序,使用它用戶可以通過(guò)語(yǔ)音記筆記和發(fā)送電子郵件、更新Twitter;黑莓上也有類似功能的應(yīng)用,如Dragon for Email;Android手機(jī)自帶的語(yǔ)音識(shí)別軟件可以幫助用戶通過(guò)語(yǔ)音發(fā)送短信。
翻譯:這項(xiàng)技術(shù)目前還不太成熟,不過(guò)也已經(jīng)有了一些應(yīng)用,如iPhone上的Jibbigo就可以翻譯單詞、短語(yǔ)和簡(jiǎn)單的句子,讓雙方進(jìn)行簡(jiǎn)單的交流。
未來(lái)發(fā)展方向
如果要問(wèn)一個(gè)語(yǔ)音技術(shù)工程師,語(yǔ)音識(shí)別技術(shù)的未來(lái)會(huì)如何發(fā)展,他通常會(huì)說(shuō):自然語(yǔ)言處理。
所謂自然語(yǔ)言處理就是系統(tǒng)能夠理解你的意思,而不只是知道你說(shuō)的是什么。在這樣的系統(tǒng)中,用戶可以根據(jù)自己習(xí)慣不受約束地表達(dá)自己的意思。
不過(guò),要在對(duì)話中實(shí)現(xiàn)自然語(yǔ)言處理面臨雙重挑戰(zhàn):首先,你必須識(shí)別出說(shuō)的什么,然后還要理解要表達(dá)什么意思。第一步現(xiàn)在越來(lái)越容易,而第二步卻非常困難:人們表達(dá)的意思與上下文環(huán)境高度相關(guān),即使是人類自身也可能不能正確理解,更何況是電腦。
好在隨著手機(jī)功能的豐富將幫助系統(tǒng)理解人們所要表達(dá)的真正含義。語(yǔ)音識(shí)別系統(tǒng)可以把用戶所說(shuō)的話與手機(jī)所感受到的外界環(huán)境等信息結(jié)合起來(lái),從而提供更準(zhǔn)確的結(jié)果。比如,一個(gè)用戶正在餐館就餐,他就很可能用到點(diǎn)菜、埋單、預(yù)訂、叫出租車等詞匯。
語(yǔ)音識(shí)別技術(shù)的另一個(gè)應(yīng)用針對(duì)某個(gè)用戶進(jìn)行專門的定制,這其實(shí)有些類似桌面語(yǔ)音識(shí)別應(yīng)用的發(fā)音學(xué)習(xí)。例如,最新版的谷歌語(yǔ)音搜索提供一個(gè)選項(xiàng),允許針對(duì)用戶自己定制一個(gè)語(yǔ)音識(shí)別系統(tǒng)。如果用戶選擇了自己的語(yǔ)音識(shí)別系統(tǒng),谷歌就會(huì)把這個(gè)用戶和他的發(fā)音方式聯(lián)系起來(lái),從而讓谷歌能夠針對(duì)這個(gè)用戶的發(fā)音建立一個(gè)專門的識(shí)別模型。
語(yǔ)音識(shí)別技術(shù)的另一個(gè)未來(lái)發(fā)展領(lǐng)域是游戲,語(yǔ)音可以大大豐富游戲的娛樂(lè)性,比如,直接給宇宙飛船發(fā)命令或者對(duì)嫌疑人進(jìn)行審訊。
總體而言,到目前為止,對(duì)于手機(jī)而言語(yǔ)音識(shí)別技術(shù)還是一項(xiàng)錦上添花的技術(shù)。好在這一技術(shù)正在不斷改進(jìn),為有朝一日的突破奠定基礎(chǔ),而手機(jī)恰恰為這項(xiàng)技術(shù)的突破提供了一個(gè)非常好的舞臺(tái)。
鏈接:語(yǔ)音識(shí)別技術(shù)的工作原理
語(yǔ)音識(shí)別技術(shù)的工作原理是利用語(yǔ)言發(fā)音的統(tǒng)計(jì)模型,也就是比較輸入語(yǔ)音和該語(yǔ)言的統(tǒng)計(jì)模型,設(shè)法找到最接近的匹配單詞。建立某個(gè)語(yǔ)言的統(tǒng)計(jì)模型需要大量的存儲(chǔ)空間,比如需要存儲(chǔ)該語(yǔ)言所有的基本發(fā)音、所有單詞以及所有單詞之間可能組合在一起的發(fā)音方式,在此之上,還有口音以及因年齡、性別不同而帶來(lái)的發(fā)音差異等。
以Google的語(yǔ)音搜索(Voice Search)為例,它需要兩個(gè)統(tǒng)計(jì)模型:聲學(xué)模型、語(yǔ)言模型。聲學(xué)模型是通過(guò)提取錄音和說(shuō)話者錄音的腳本來(lái)建立的,而語(yǔ)言模型主要搞清楚哪些單詞最有可能跟在另外一些單詞之后,以提高識(shí)別的準(zhǔn)確性。
- 1廈門OA軟件
- 2合肥OA軟件行業(yè)資訊
- 3杭州OA軟件
- 4鄭州OA軟件
- 5濟(jì)南OA軟件
- 6青島OA軟件
- 7太原OA軟件
- 8上海OA軟件
- 9上海OA軟件行業(yè)資訊
- 10石家莊OA軟件
- 11天津OA軟件
- 12沈陽(yáng)OA軟件
- 1何為虛擬硬件平臺(tái)?
- 2無(wú)所不在的商業(yè)智能
- 3如何通過(guò)配置虛擬產(chǎn)品來(lái)管理供應(yīng)鏈?
- 4自動(dòng)精簡(jiǎn)配置存儲(chǔ)的優(yōu)勢(shì)
- 5智能電網(wǎng)離成熟還有多遠(yuǎn)!
- 62010年數(shù)據(jù)中心網(wǎng)絡(luò):雙層網(wǎng)絡(luò)來(lái)臨
- 7自動(dòng)分層存儲(chǔ)越精細(xì)越好?
- 8電子簽名與認(rèn)證:網(wǎng)商應(yīng)用知多少?
- 9數(shù)據(jù)中心里的創(chuàng)新之舉
- 10EDA 和 SOA 的融合以及實(shí)踐
- 113G對(duì)4G:真實(shí)速率大比拼
- 12電子證帶來(lái)的監(jiān)管變革 具有里程碑意義
- 13未來(lái),誰(shuí)來(lái)保護(hù)你的安全
- 14協(xié)同OA提供目錄結(jié)構(gòu)式的組織架構(gòu)管理功能
- 15無(wú)線Mesh:讓視頻監(jiān)控更輕松
- 16CCD還是CMOS 高清攝像機(jī)的成本博弈
- 17如何讓IaaS服務(wù)免受DNS漏洞的威脅?
- 18基于SOA模式的企業(yè)架構(gòu)設(shè)計(jì)
- 19正確看待商業(yè)智能的TCO
- 20SAP在企業(yè)中的應(yīng)用進(jìn)程與應(yīng)用過(guò)程中存在的問(wèn)題
- 21OA辦公系統(tǒng)與Oracle人員組織集成應(yīng)用
- 22網(wǎng)“助”云計(jì)算
- 23服務(wù)器證書 讓釣魚網(wǎng)站無(wú)法亂真
- 24災(zāi)備計(jì)劃通過(guò)VMware解決裸機(jī)恢復(fù)問(wèn)題
- 25云存儲(chǔ)取得成功的三個(gè)關(guān)鍵因素
- 26標(biāo)準(zhǔn)在SOA領(lǐng)域的應(yīng)用
- 27電信級(jí)技術(shù)已悄然在網(wǎng)絡(luò)視頻監(jiān)控中啟動(dòng)
- 28向FCoE遷徙的思考
- 29如何選擇數(shù)據(jù)庫(kù)虛擬化平臺(tái)
- 30長(zhǎng)沙某公司招聘OA辦公軟件產(chǎn)品經(jīng)理
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓