<strike id="1fxbd"><i id="1fxbd"><cite id="1fxbd"></cite></i></strike>

<strike id="1fxbd"></strike><span id="1fxbd"></span>

<span id="1fxbd"><dl id="1fxbd"><ruby id="1fxbd"></ruby></dl></span>

<strike id="1fxbd"></strike>

<ruby id="1fxbd"><ins id="1fxbd"></ins></ruby>

<span id="1fxbd"><i id="1fxbd"></i></span>

當前位置：深圳新聞網(wǎng)首頁(yè)>產(chǎn)經(jīng)>科技>本日精選>

站內

無(wú)聲語(yǔ)音識別孕育商機卻暫難成為消費級產(chǎn)品

無(wú)聲語(yǔ)音識別孕育商機卻暫難成為消費級產(chǎn)品

分享

人工智能朗讀：

世界知識產(chǎn)權組織（WIPO）日前公布了一項微軟申請的“無(wú)聲語(yǔ)音輸入”（Silent Voice Input）專(zhuān)利，豐富了“機器聽(tīng)懂人話(huà)”的場(chǎng)景。

科技日報2019年2月18日訊世界知識產(chǎn)權組織（WIPO）日前公布了一項微軟申請的“無(wú)聲語(yǔ)音輸入”（Silent Voice Input）專(zhuān)利，豐富了“機器聽(tīng)懂人話(huà)”的場(chǎng)景。

雖然還很難判斷使用者能否接受該專(zhuān)利的另類(lèi)語(yǔ)音輸入方法及該專(zhuān)利的市場(chǎng)前景，但很多看似天馬行空的研發(fā)往往孕育著(zhù)巨大的商機，如果它們能找到正確的市場(chǎng)和恰當的推動(dòng)方法。

驗證了語(yǔ)音交互技術(shù)的又一種可能

語(yǔ)音識別技術(shù)離完美還很遠，噪雜的環(huán)境、吐字不清的詞匯、俚語(yǔ)及方言都會(huì )讓機器陷入混亂，開(kāi)發(fā)更精準更私密的語(yǔ)言識別技術(shù)，仍是包括微軟在內的產(chǎn)業(yè)和學(xué)界的主要科研方向。

通常情況下，語(yǔ)音輸入首先要發(fā)出聲音，其次需要一個(gè)相對安靜的環(huán)境。根據微軟這項專(zhuān)利的說(shuō)明，只要讓麥克風(fēng)等設備靠近嘴巴，該語(yǔ)音輸入解決方案就能捕捉到極低的，如同耳語(yǔ)般的聲音信號，并過(guò)濾掉周?chē)碾s音。除自己之外，別人聽(tīng)不見(jiàn)或聽(tīng)不懂。

當然，說(shuō)話(huà)方式可能需要練習。一般情況下，我們講話(huà)時(shí)吐氣，微軟的解決方案要求使用者在吸氣時(shí)執行語(yǔ)音輸入。

此外，盡管語(yǔ)音輸入的性能持續被改善，但除了“調戲”siri，很少有人會(huì )在公共場(chǎng)所一本正經(jīng)的用語(yǔ)音輸入，怕打擾別人，也有語(yǔ)音內容私密性的顧慮。在這種情況下，微軟的專(zhuān)利不失為一種妥善的解決方案。

而麻省理工學(xué)院的研究人員開(kāi)發(fā)的新型人機接口“AlterEgo”則更為魔幻，骨傳導耳機環(huán)繞用戶(hù)的耳朵和下巴，計算機系統處理并翻譯耳機接收的數據并輸出反應，如同人們在閱讀時(shí)的“默念”。

這個(gè)系統有點(diǎn)像“肌電假體”，當你準備作出某種行為時(shí)，大腦會(huì )告訴肌肉怎么做，同理，當你想著(zhù)某個(gè)詞時(shí)，大腦會(huì )向面部及喉部肌肉發(fā)送信號。

主要研究人員Arnav Kapur表示，他們的初衷是將人類(lèi)和機器以某種方式進(jìn)行混合，仿佛人類(lèi)自身認知的內部延伸。

如果這臺設備真的能商用，確實(shí)意義非凡。但是，當前的無(wú)聲語(yǔ)音識別都處在技術(shù)驗證階段，這究竟是一種無(wú)用的“情懷技術(shù)”，還是可演變?yōu)橛糜谔厥鈭?chǎng)景的產(chǎn)品，尚待業(yè)界探索。

工程師們還在努力彌補語(yǔ)音技術(shù)缺陷

語(yǔ)音技術(shù)不僅具有典型的“賦能”特征，更是當前人們與人工智能互動(dòng)的最重要界面，已同焦土戰般激烈的“百箱大戰”給語(yǔ)音技術(shù)市場(chǎng)帶來(lái)很多幻象。

事實(shí)上，現在大多數基于語(yǔ)音技術(shù)的硬件產(chǎn)品與智能服務(wù)交互體驗仍然存在很多缺陷，研究機構與產(chǎn)業(yè)公司還在技術(shù)研發(fā)層面不斷努力完善。

微軟全球資深技術(shù)院士、微軟云與人工智能事業(yè)部負責人黃學(xué)東博士，是微軟語(yǔ)音技術(shù)的創(chuàng )始人，微軟的語(yǔ)音識別、語(yǔ)音合成技術(shù)研發(fā)團隊都由他一手組建。

在黃學(xué)東的帶領(lǐng)下，2016年10月18日，微軟語(yǔ)音團隊識別研究團隊在 Switchboard語(yǔ)音識別基準測試中刷新自己的紀錄，詞錯率低至5.9%，達到了人類(lèi)的水平。

306天后，這一紀錄再次被微軟刷新，詞錯率降低到5.1%，超過(guò)專(zhuān)業(yè)速記員的誤差水平，被學(xué)術(shù)界看作是“人工智能在感知上的一重大里程碑”。

微軟全球執行副總裁沈向洋說(shuō)：“盡管這項語(yǔ)音識別系統還存在一些應用場(chǎng)景的限制，但我相信未來(lái)幾年內，機器將會(huì )完全超越人類(lèi)的識別水平?！?/p>

盡管各類(lèi)科研機構為了實(shí)現語(yǔ)音識別準確率的“人類(lèi)對等”，奮斗了二十幾年，但目前在嘈雜環(huán)境下較遠的麥克風(fēng)的語(yǔ)音識別、方言識別、訓練數據有限的特定說(shuō)話(huà)風(fēng)格或較少人使用的語(yǔ)言的語(yǔ)音識別等，都未達到人類(lèi)水平。

與此同時(shí)，Switchboard雖然是全球語(yǔ)音研究人員用了20多年的通用測試數據集，很多技術(shù)公司與組織在上面做語(yǔ)音方面的相關(guān)研究，它有著(zhù)全球開(kāi)發(fā)人員多年來(lái)的技術(shù)積累，但并不意味著(zhù)測試結果可以“平移”到現實(shí)環(huán)境中。

如黃學(xué)東所說(shuō)，公開(kāi)性的測試、發(fā)表的學(xué)術(shù)文章，與現實(shí)產(chǎn)品雖然不能完全割裂，但消費級產(chǎn)品與商業(yè)場(chǎng)景，需要不一樣的評判標準。（記者劉艷）

[責任編輯：田志強]

延伸閱讀

新聞評論

国产精品香港三级国产AV|JULIA手机在线观看精品|亚洲乱色熟女一区二区三区麻豆|欧美牲交a欧美牲交久久精品|亚洲成A∧人片在线播放无码

<strike id="1fxbd"><i id="1fxbd"><cite id="1fxbd"></cite></i></strike>

<strike id="1fxbd"></strike><span id="1fxbd"></span>

<span id="1fxbd"><dl id="1fxbd"><ruby id="1fxbd"></ruby></dl></span>

<strike id="1fxbd"></strike>

<ruby id="1fxbd"><ins id="1fxbd"></ins></ruby>

<span id="1fxbd"><i id="1fxbd"></i></span>