Path: EDNTaiwan電子技術設計 >> 設計中心 >> 電腦/週邊 >> 語音控制能否成為主流人機介面技術?
電腦/週邊 Share print

語音控制能否成為主流人機介面技術?

2015年08月10日

Share this page with your friends


觸控技術取代按鍵,促成了當今電子產品設計的最近一次變革。但觸控技術畢竟還是需要手的參與,是否有更加便捷的技術來實現電子產品的功能控制呢?從目前的發展態勢看,人們把目標指向了語音控制。以下是據聲學感測技術供應商Vesper首席執行長 Matt Crowley針對語音指令人機介面所發表的看法。


問:新聞稿指出,語音將取代觸控成為一些消費電子產品的主要HMI。你有什麼資料支援這一說法嗎?


Crowley:從觸控轉向語音是將在未來五年發生的趨勢,因此我們還沒有可以衡量此一轉變的歷史性數據;然而,我們觀察到科技市場上的主要領導廠商均已大舉投資開發通過語音與使用者互動的軟體和演算法,比如Apple (Siri)、Google (Google Now)、Microsoft (Cortana)、Amazon (Echo/Alexa)和Samsung (S Voice),也印證了此一發展趨勢。


這股轉向語音使用者介面(VUI)的潮流,是使用者介面自然轉變中的一環,而這個自然轉變早在多年前就已經展開了。在個人電腦/膝上型電腦的時代,滑鼠定義了使用者介面;觸控式螢幕則主導了智慧手機/平板電腦時代;進入物聯網(IoT)時代後,語音將成為最常用的介面。


IoT裝置的範圍很廣,涵蓋了許多產品類別,其中包括穿戴式產品、智慧家居、智慧汽車和機器人/無人機等,這些產品都非常適合VUI應用,因為語音是人類最自然的溝通形式。例如,智慧電視目前是以複雜且不易使用的遙控裝置來控制的,但其實以說話來控制電視才更自然。亞馬遜的Echo是一款非常成功的產品,原因就是Alexa VUI系統運作的方式有趣且自然,而這也是印證VUI發展趨勢的好例子。


問:承上題,MEMS麥克風有什麼功能會成為取代觸控的關鍵?


Crowley:遠場音訊 (far field audio)、定向音訊和高可靠性是MEMS麥克風支援使用者介面轉向語音的必要條件。


在遠場音訊方面,訊噪比 (SNR)是測量聲學性能的單一最重要基準,SNR越高,聲學性能便越好,麥克風的有效距離也越遠。定向音訊可讓單一使用者與其VUI設備互動,即使在嘈雜環境下也不受影響。


由於不能防水、防塵、耐顆粒或防振動可能會導致麥克風失效,因此對麥克風而言,可靠性也是十分重要的。如果麥克風失效,帶有這些麥克風的智慧手機和其它消費電子產品的製造商就必需負責維修受損的產品,而這是非常昂貴和耗時的。


Vesper的首款麥克風產品VM101具有業界領先的68 dB SNR,可提供以下優勢:出色的遠場音訊,可大幅延長聲音捕獲的距離; 環境雜訊消除,可大幅提升手機通話的清晰度以及語音功能應用的使用者體驗;出色的“音訊放大”錄音功能,可讓使用者專注於單一聲源;為具備語音功能的智慧家居設備和汽車資訊娛樂系統提高性能。


當然,在MEMS麥克風之間也有不同的差別。“電容式” MEMS麥克風是市場上第一款MEMS麥克風,它們無法達到最新一代“壓電式”MEMS麥克風的高SNR。


壓電式MEMS麥克風具有遠遠超過電容式MEMS麥克風的可靠性和堅固性。壓電式麥克風具有簡單的單層隔膜設計,因而沒有可以讓水或灰塵掉入的地方。所有的Vesper產品本身都是防水、防塵、耐顆粒以及防振動的,這種可靠的麥克風深受所有客戶歡迎,尤以中國的客戶為甚。Vesper的VM101即為一款壓電式MEMS麥克風。


問: 要完全取代觸控,MEMS麥克風必須具有哪些主要的規範和特性?


Crowley:高SNR和高可靠性將是讓壓電式MEMS麥克風主導市場的重要特性。


就SNR而言,Vesper的願景是在可預見的未來,每年將麥克風產品的SNR提高2 dB。電容式MEMS麥克風若要提高SNR便必須增加封裝尺寸,因此難以實現這樣的性能改善;由於我們的麥克風產品是壓電式的,所以能夠提高SNR而毋須增加封裝尺寸,而封裝尺寸對於智慧手機和穿戴式產品是非常重要的,因為每平方毫米(mm)電路板空間都是非常寶貴的。


問: 你認為在未來,語音功能會成為智慧手機等消費電子產品的主要差異化特性嗎?為什麼?


Crowley:我認為會,因為消費者希望從具有語音功能的應用獲得更好的使用體驗。消費者對於智慧手機、穿戴式產品、汽車資訊娛樂系統和智慧家居設備也有同樣的期待。可為消費者提供更好聲學性能的製造商,將可吸引和留住更多客戶。


問:麥克風的其中一個重要規範是SNR。Vesper MEMS麥克風的SNR 是68dB, 而競爭對手的是66dB;而你們還計劃到2018年提高SNR至75dB。Vesper 採用什麼技術實現這種改進?你預計到2018年時競爭對手的SNR 為何?


Crowley:壓電式MEMS是一項新技術,而電容式MEMS技術已經存在大約15年了,通常新技術會在一段時間內不斷改進,到達固有的性能極限才停下來;電容式MEMS麥克風在過去三年來沒有任何重大改進,意味著它們已到達了電容式技術的極限。


有許多可改善壓電式MEMS麥克風技術的構思,其中包括:使用氮化鋁(AlN)之外的新壓電材料、嘗試不同的壓電式產品設計、最佳化麥克風ASIC、以及改變麥克風的封裝設計。我們擁有許多可以在模擬時把性能提升2dB的構思,但通常要一年時間才能實施一個新構思。這也是每一改進通常需要大約一年時間才能上市的原因。


問:對於受歡迎的麥克風陣列應用來說,麥克風的一致性是非常重要的。在新聞稿中提到電容式MEMS 技術性能不穩定,而Vesper 麥克風則不會。為什麼?


Crowley:在智慧手機和IoT設備中,麥克風陣列可支援更好的聲學性能,而穩定性便是其中的關鍵。


在麥克風陣列應用中,各個麥克風必需在相位和靈敏度方面仔細匹配。壓電式元件的製造過程簡單得多,也更具有一致性,因而相位和敏感度也可以匹配得更好。這一匹配可以通過AISC校準來改善。壓電式MEMS元件一旦匹配好了,便不會漂移。


電容式MEMS麥克風製造過程的一致性較差,總是需要一個成本昂貴的校準過程。要獲得匹配的電容式麥克風對(pair)是一件困難的事;但更糟糕的是,即使你能夠生產出匹配的電容式麥克風陣列,它還是會隨著時間而漂移,這會使得麥克風陣列失效。然而,壓電式麥克風在嚴苛的環境中和隨著時間流逝仍可保持非常穩定的性能,因此,陣列中的麥克風在各種環境條件下始終都可保持匹配。


問:一些消費電子產品智慧手機在戶外使用時一般雜訊會比較多。Vesper的技術能如何支援消除雜訊?


Crowley:高SNR麥克風對於降低雜訊是十分重要的,先進的主動雜訊消除耳機使用75dB SNR的舊式駐極體電容式麥克風(electret condenser microphone,ECM) ,對於大多數消費電子產品來說,這些ECM麥克風過於昂貴、太大和易碎,但這也說明了降噪對於較高SNR具有極大需求。麥克風還必需在所有環境條件下都保持穩定的性能,比如溫度、濕度和灰塵。Vesper的超高SNR麥克風可以將極高品質的降雜訊特性帶入主流消費電子產品中。





想要免費接收更多的技術設計資訊嗎?

馬上訂閱《電子技術設計》郵件速遞,透過郵箱輕鬆接收最新的設計理念和產品新聞。

為確保您的資訊安全,請輸入右方顯示的代碼.

啟動您的訂閱申請

我們已給您的註冊郵箱發送了確認信,請點擊信中的連結啟動您的訂閱申請。

這將有助於我們很好地保護您的個人隱私同時確保您能成功接收郵件。


添加新評論
遊客 (您目前以遊客身份發表,請 登入 | 註冊)
*驗證碼:

新聞 | 產品 | 設計實例