Java實(shí)現(xiàn)本地語(yǔ)音識(shí)別與熱點(diǎn)檢測(cè)詳解
引言
隨著語(yǔ)音交互技術(shù)的發(fā)展,如何高效地處理用戶的語(yǔ)音輸入成為許多應(yīng)用的重要課題。本文將詳細(xì)介紹如何在一個(gè)Java項(xiàng)目中同時(shí)實(shí)現(xiàn):
- 基于Vosk的本地語(yǔ)音識(shí)別:無(wú)需調(diào)用云端API即可完成語(yǔ)音到文本的轉(zhuǎn)換。
- 本地?zé)狳c(diǎn)語(yǔ)音內(nèi)容識(shí)別:對(duì)識(shí)別出的文本進(jìn)行關(guān)鍵詞匹配,快速響應(yīng)特定指令或查詢。
- 集成阿里云智能語(yǔ)音服務(wù):利用阿里云提供的高級(jí)語(yǔ)音功能,如更準(zhǔn)確的語(yǔ)音識(shí)別、情感分析等。
一、準(zhǔn)備工作
1. 注冊(cè)阿里云賬號(hào)并開(kāi)通 ASR 服務(wù)
- 訪問(wèn) 阿里云官網(wǎng)
- 登錄控制臺(tái),搜索“智能語(yǔ)音交互”
- 開(kāi)通服務(wù)并創(chuàng)建 AppKey 和 AccessKey
2. 環(huán)境準(zhǔn)備
- JDK 1.8+
- Maven 或 Gradle 構(gòu)建工具
- 支持上傳 .wav 或 .pcm 音頻文件
- 下載 Vosk SDK 及中文模型
3.Maven 依賴
<dependencies>
<!-- Vosk Java SDK -->
<dependency>
<groupId>org.vosk</groupId>
<artifactId>vosk-java</artifactId>
<version>0.3.34</version>
</dependency>
<!-- Alibaba Cloud SDK for Java -->
<dependency>
<groupId>com.alibaba.nls</groupId>
<artifactId>nls-sdk-java</artifactId>
<version>3.0.5</version>
</dependency>
</dependencies>
二、核心代碼實(shí)現(xiàn)
1. 定義熱點(diǎn)詞匯庫(kù)(本地關(guān)鍵詞)
import java.util.HashSet;
import java.util.Set;
public class HotSpotWords {
public static final Set<String> HOT_WORDS = new HashSet<>(Set.of(
"你好", "退出", "播放音樂(lè)", "打開(kāi)設(shè)置", "天氣怎么樣", "幫我查一下"
));
}
2. 使用 Vosk 進(jìn)行本地語(yǔ)音識(shí)別 + 熱點(diǎn)檢測(cè)
import org.vosk.Model;
import org.vosk.Recognizer;
import org.vosk.LibVosk;
import javax.sound.sampled.*;
import java.io.File;
import java.io.IOException;
public class LocalASRWithHotSpot {
// 檢測(cè)是否為熱點(diǎn)語(yǔ)音
private static boolean isHotSpot(String text) {
return HotSpotWords.HOT_WORDS.stream().anyMatch(text::contains);
}
public static void main(String[] args) throws Exception {
// 初始化 Vosk 庫(kù)
LibVosk.setLogLevel(0); // 設(shè)置日志級(jí)別
// 加載本地模型(路徑根據(jù)實(shí)際修改)
Model model = new Model("models/cn-small");
// 打開(kāi)音頻文件
File audioFile = new File("samples/audio.wav");
AudioInputStream ais = AudioSystem.getAudioInputStream(audioFile);
// 轉(zhuǎn)換音頻格式為 PCM 16bit 單聲道 16kHz
AudioFormat targetFormat = new AudioFormat(16000, 16, 1, true, false);
AudioInputStream convertedStream = AudioSystem.getAudioInputStream(targetFormat, ais);
// 創(chuàng)建識(shí)別器
Recognizer recognizer = new Recognizer(model, 16000);
byte[] buffer = new byte[4096];
int bytesRead;
System.out.println("開(kāi)始本地語(yǔ)音識(shí)別...");
while ((bytesRead = convertedStream.read(buffer)) >= 0) {
if (bytesRead > 0) {
recognizer.acceptWaveForm(buffer, bytesRead);
}
}
String result = recognizer.finalResult();
System.out.println("最終識(shí)別結(jié)果: " + result);
// 熱點(diǎn)檢測(cè)
if (isHotSpot(result)) {
System.out.println("發(fā)現(xiàn)熱點(diǎn)語(yǔ)音內(nèi)容: " + result);
} else {
System.out.println("非熱點(diǎn)語(yǔ)音內(nèi)容");
}
// 關(guān)閉資源
recognizer.close();
convertedStream.close();
ais.close();
}
}
3. 集成阿里云智能語(yǔ)音服務(wù)
為了增強(qiáng)語(yǔ)音識(shí)別能力或使用更多高級(jí)功能,我們可以結(jié)合阿里云智能語(yǔ)音服務(wù)。以下是一個(gè)簡(jiǎn)單的示例:
import com.alibaba.nls.client.protocol.asr.AsrPidCallBack;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriber;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriberResponse;
import java.io.File;
import java.util.concurrent.CountDownLatch;
public class AliyunASRIntegration {
public static void main(String[] args) throws Exception {
String accessKeyId = "<your-access-key-id>";
String accessKeySecret = "<your-access-key-secret>";
String appKey = "<your-appkey>";
String audioFilePath = "path/to/audio.wav"; // 支持 wav/pcm/amr
CountDownLatch latch = new CountDownLatch(1);
SpeechTranscriber asrClient = new SpeechTranscriber(accessKeyId, accessKeySecret, appKey, new AsrPidCallBack() {
@Override
public void onRecognitionResultChange(SpeechTranscriberResponse response) {
String result = response.getTranscript();
System.out.println("實(shí)時(shí)識(shí)別結(jié)果:" + result);
}
@Override
public void onRecognitionCompleted(SpeechTranscriberResponse response) {
String finalResult = response.getTranscript();
System.out.println("最終識(shí)別結(jié)果:" + finalResult);
latch.countDown();
}
@Override
public void onTaskFailed(SpeechTranscriberResponse response) {
System.err.println("識(shí)別失敗: " + response.getErrorMsg());
latch.countDown();
}
});
// 設(shè)置語(yǔ)言模型、采樣率等參數(shù)(根據(jù)音頻格式調(diào)整)
asrClient.setFormat("pcm"); // 可改為 wav/amr
asrClient.setSampleRate(16000); // 根據(jù)音頻采樣率調(diào)整
// 啟動(dòng)識(shí)別任務(wù)
File audioFile = new File(audioFilePath);
asrClient.start(audioFile);
latch.await(); // 等待識(shí)別完成
asrClient.stop(); // 停止客戶端
}
}
三、流程圖說(shuō)明

四、總結(jié)與展望
通過(guò)本文,你現(xiàn)在可以在一個(gè)Java項(xiàng)目中實(shí)現(xiàn):
- 本地語(yǔ)音識(shí)別:使用Vosk引擎,在沒(méi)有網(wǎng)絡(luò)連接的情況下也能完成語(yǔ)音到文本的轉(zhuǎn)換。
- 本地?zé)狳c(diǎn)語(yǔ)音內(nèi)容識(shí)別:對(duì)識(shí)別出的文本進(jìn)行關(guān)鍵詞匹配,快速響應(yīng)特定指令或查詢。
- 集成阿里云智能語(yǔ)音服務(wù):當(dāng)需要更高的準(zhǔn)確性或更多的高級(jí)功能時(shí),可以輕松切換到阿里云的服務(wù)。
這種方法不僅提高了系統(tǒng)的靈活性和隱私保護(hù)水平,還能根據(jù)具體需求靈活調(diào)整策略。
以上就是Java實(shí)現(xiàn)本地語(yǔ)音識(shí)別與熱點(diǎn)檢測(cè)詳解的詳細(xì)內(nèi)容,更多關(guān)于Java語(yǔ)音識(shí)別與熱點(diǎn)檢測(cè)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
使用Java實(shí)現(xiàn)三種等級(jí)的掃雷游戲(完整版)
掃雷是一款大眾類的益智小游戲,根據(jù)點(diǎn)擊格子出現(xiàn)的數(shù)字找出所有非雷格子,同時(shí)避免踩雷,踩到一個(gè)雷即全盤(pán)皆輸,下面這篇文章主要給大家介紹了關(guān)于使用Java實(shí)現(xiàn)三種等級(jí)的掃雷游戲的相關(guān)資料,需要的朋友可以參考下2023-01-01
Java中easypoi的使用之導(dǎo)入校驗(yàn)
因工作需要,使用easypoi導(dǎo)入表格,并進(jìn)行校驗(yàn),將表格中有問(wèn)題的地方,給出提示信息,以表格形式返回,下面這篇文章主要給大家介紹了關(guān)于Java中easypoi的使用之導(dǎo)入校驗(yàn)的相關(guān)資料,需要的朋友可以參考下2023-03-03
SpringBoot項(xiàng)目引入第三方sdk?jar包的解決方案
這篇文章主要介紹了SpringBoot項(xiàng)目引入第三方sdk?jar包,個(gè)人感覺(jué)比較好的解決方案是將 jar上傳到本地的maven倉(cāng)庫(kù),然后通過(guò)pom依賴,引入第三方j(luò)ar包,需要的朋友可以參考下2022-05-05
Java多線程編程之CountDownLatch同步工具使用實(shí)例
這篇文章主要介紹了Java多線程編程之CountDownLatch同步工具使用實(shí)例,需要的朋友可以參考下2015-05-05
Java 線程池_動(dòng)力節(jié)點(diǎn)Java學(xué)院整理
系統(tǒng)啟動(dòng)一個(gè)新線程的成本是比較高的,因?yàn)樗婕暗脚c操作系統(tǒng)的交互。在這種情況下,使用線程池可以很好的提供性能,尤其是當(dāng)程序中需要?jiǎng)?chuàng)建大量生存期很短暫的線程時(shí),更應(yīng)該考慮使用線程池2017-05-05
關(guān)于jdk環(huán)境變量配置以及javac不是內(nèi)部或外部命令的解決
這篇文章主要介紹了關(guān)于jdk環(huán)境變量配置以及javac不是內(nèi)部或外部命令的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-01-01
Mybatis調(diào)用SQL?Server存儲(chǔ)過(guò)程的實(shí)現(xiàn)示例
在軟件開(kāi)發(fā)過(guò)程中,經(jīng)常會(huì)使用到存儲(chǔ)過(guò)程,本文就來(lái)介紹一下Mybatis調(diào)用SQL?Server存儲(chǔ)過(guò)程的實(shí)現(xiàn)示例,具有一定的參考價(jià)值,感興趣的可以了解一下2024-01-01

