JavaScript Web Speech

2018-07-24 11:54 更新

目錄

概述

這個(gè)API用于瀏覽器接收語音輸入。

它最早是由Google提出的,目的是讓用戶直接進(jìn)行語音搜索,即對(duì)著麥克風(fēng)說出你所要搜索的詞,搜索結(jié)果就自動(dòng)出現(xiàn)。Google首先部署的是input元素的speech屬性(加上瀏覽器前綴x-webkit)。

<input id="query" type="search" class="k-input k-textbox" 
 x-webkit-speech speech />

加上這個(gè)屬性以后,輸入框的右端會(huì)出現(xiàn)了一個(gè)麥克風(fēng)標(biāo)志,點(diǎn)擊該標(biāo)志,就會(huì)跳出語音輸入窗口。

由于這個(gè)操作過于簡單,Google又在它的基礎(chǔ)上提出了Web Speech API,使得JavaScript可以操作語音輸入。

目前,只有Chrome瀏覽器支持該API。

SpeechRecognition對(duì)象

這個(gè)API部署在SpeechRecognition對(duì)象之上。

var SpeechRecognition = window.SpeechRecognition || 
                        window.webkitSpeechRecognition || 
                        window.mozSpeechRecognition || 
                        window.oSpeechRecognition || 
                        window.msSpeechRecognition;

為了將來的兼容性考慮,上面的代碼列出了所有瀏覽器的前綴。但是實(shí)際上,目前只有window.webkitSpeechRecognition是可用的。

確定瀏覽器支持以后,新建一個(gè)SpeechRecognition的實(shí)例對(duì)象。

if (SpeechRecognition) {		
  var recognition = new SpeechRecognition();
  recognition.maxAlternatives = 5;
}

maxAlternatives屬性等于5,表示最多返回5個(gè)語音匹配結(jié)果。

事件

目前,該API部署了11個(gè)事件。下面對(duì)其中的3個(gè)定義回調(diào)函數(shù)(假定speak是語音輸入框)。

var speak = $('#speak');

recognition.onaudiostart = function() {
  speak.val("Speak now...");
};

recognition.onnomatch = function() {
  speak.val("Try again please...");
};

recognition.onerror = function() {
  speak.val("Error. Try Again...");
};

首先,瀏覽器會(huì)詢問用戶是否許可瀏覽器獲取麥克風(fēng)數(shù)據(jù)。如果用戶許可,就會(huì)觸發(fā)audiostart事件,準(zhǔn)備接收語音輸入。如果找不到與語音匹配的值,就會(huì)觸發(fā)nomatch事件;如果發(fā)生錯(cuò)誤,則會(huì)觸發(fā)error事件。

如果得到與語音匹配的值,則會(huì)觸發(fā)result事件。

recognition.onresult = function(event) { 

  if (event.results.length > 0) { 
    
    var results = event.results[0], 
        topResult = results[0];

    if (topResult.confidence > 0.5) {
      speechSearch(results, topResult);
    } else {
      speak.val("Try again please...");
    }
  }
};

result事件回調(diào)函數(shù)的參數(shù),是一個(gè)SpeechRecognitionEvent對(duì)象。它的results屬性就是語音匹配的結(jié)果,是一個(gè)數(shù)組,按照匹配度排序,最匹配的結(jié)果排在第一位。該數(shù)組的每一個(gè)成員是SpeechRecognitionResult對(duì)象,該對(duì)象的transcript屬性是實(shí)際匹配的文本,confidence屬性是可信度(在0與1之間)。

參考鏈接

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)