閱讀(7.5k) 書簽贊(0) 我要糾錯(cuò)

JavaScript Web Speech

2018-07-24 11:54 更新

概述

這個(gè)API用于瀏覽器接收語音輸入。

它最早是由Google提出的，目的是讓用戶直接進(jìn)行語音搜索，即對(duì)著麥克風(fēng)說出你所要搜索的詞，搜索結(jié)果就自動(dòng)出現(xiàn)。Google首先部署的是input元素的speech屬性（加上瀏覽器前綴x-webkit）。

<input id="query" type="search" class="k-input k-textbox" 
 x-webkit-speech speech />

加上這個(gè)屬性以后，輸入框的右端會(huì)出現(xiàn)了一個(gè)麥克風(fēng)標(biāo)志，點(diǎn)擊該標(biāo)志，就會(huì)跳出語音輸入窗口。

由于這個(gè)操作過于簡單，Google又在它的基礎(chǔ)上提出了Web Speech API，使得JavaScript可以操作語音輸入。

目前，只有Chrome瀏覽器支持該API。

SpeechRecognition對(duì)象

這個(gè)API部署在SpeechRecognition對(duì)象之上。

var SpeechRecognition = window.SpeechRecognition || 
                        window.webkitSpeechRecognition || 
                        window.mozSpeechRecognition || 
                        window.oSpeechRecognition || 
                        window.msSpeechRecognition;

為了將來的兼容性考慮，上面的代碼列出了所有瀏覽器的前綴。但是實(shí)際上，目前只有window.webkitSpeechRecognition是可用的。

確定瀏覽器支持以后，新建一個(gè)SpeechRecognition的實(shí)例對(duì)象。

if (SpeechRecognition) {		
  var recognition = new SpeechRecognition();
  recognition.maxAlternatives = 5;
}

maxAlternatives屬性等于5，表示最多返回5個(gè)語音匹配結(jié)果。

事件

目前，該API部署了11個(gè)事件。下面對(duì)其中的3個(gè)定義回調(diào)函數(shù)（假定speak是語音輸入框）。

var speak = $('#speak');

recognition.onaudiostart = function() {
  speak.val("Speak now...");
};

recognition.onnomatch = function() {
  speak.val("Try again please...");
};

recognition.onerror = function() {
  speak.val("Error. Try Again...");
};

首先，瀏覽器會(huì)詢問用戶是否許可瀏覽器獲取麥克風(fēng)數(shù)據(jù)。如果用戶許可，就會(huì)觸發(fā)audiostart事件，準(zhǔn)備接收語音輸入。如果找不到與語音匹配的值，就會(huì)觸發(fā)nomatch事件；如果發(fā)生錯(cuò)誤，則會(huì)觸發(fā)error事件。

如果得到與語音匹配的值，則會(huì)觸發(fā)result事件。

recognition.onresult = function(event) { 

  if (event.results.length > 0) { 
    
    var results = event.results[0], 
        topResult = results[0];

    if (topResult.confidence > 0.5) {
      speechSearch(results, topResult);
    } else {
      speak.val("Try again please...");
    }
  }
};

result事件回調(diào)函數(shù)的參數(shù)，是一個(gè)SpeechRecognitionEvent對(duì)象。它的results屬性就是語音匹配的結(jié)果，是一個(gè)數(shù)組，按照匹配度排序，最匹配的結(jié)果排在第一位。該數(shù)組的每一個(gè)成員是SpeechRecognitionResult對(duì)象，該對(duì)象的transcript屬性是實(shí)際匹配的文本，confidence屬性是可信度（在0與1之間）。

參考鏈接

Brandon Satrom, Using voice to drive the web: Introduction to the Web Speech API

以上內(nèi)容是否對(duì)您有幫助：

← JavaScript Fullscreen API：全屏操作

JavaScript requestAnimationFrame →

寫筆記

我要補(bǔ)充

JavaScript Web Speech

目錄

概述

SpeechRecognition對(duì)象

事件

參考鏈接

推薦文章

推薦教程

推薦課程