基于树莓派的智能音箱系统.docx

发布时间：2022-06-19 发布人：admin 分类：说明书资料大小：1.45M 资料格式：docx 举报版权申诉

684cce6c-db47-4f47-9790-5f8c2e6b467e.docx.pdf-第1页.png

第1页 / 共49页

684cce6c-db47-4f47-9790-5f8c2e6b467e.docx.pdf-第2页.png

第2页 / 共49页

684cce6c-db47-4f47-9790-5f8c2e6b467e.docx.pdf-第3页.png

第3页 / 共49页

684cce6c-db47-4f47-9790-5f8c2e6b467e.docx.pdf-第4页.png

第4页 / 共49页

684cce6c-db47-4f47-9790-5f8c2e6b467e.docx.pdf-第5页.png

第5页 / 共49页

684cce6c-db47-4f47-9790-5f8c2e6b467e.docx.pdf-第6页.png

第6页 / 共49页

684cce6c-db47-4f47-9790-5f8c2e6b467e.docx.pdf-第7页.png

第7页 / 共49页

684cce6c-db47-4f47-9790-5f8c2e6b467e.docx.pdf-第8页.png

第8页 / 共49页

摘要

Abstract

引言

1语音识别概述

1.1选题背景及意义

1.2语音识别的发展历史与现状

1.3语音识别的分类

1.4语音识别的技术难点

1.5国内发展现状

2语音识别技术原理

2.1 语音识别系统的组成部分

2.1.1预处理

2.1.2特征提取

2.2语音识别常用算法-隐马尔可夫模型

2.2.1隐马尔可夫模型(HMM)

3 智能音箱系统搭建方案

3.1本地语音识别系统

3.1.1Sphinx语音识别系统

3.1.2 Sphinx识别理论简介

3.1.3声学模型

3.1.4语言字典

3.1.5语言模型

3.1.6语音解码和搜索算法

3.2 项目环境搭建

3.3软件设计框架

4云端语音识别方案

4.1 STT服务

4.2 TTS服务

5插件模块

5.1扩展模块示例

5.2闲聊模式

5.3音乐播放模块

5.3.1 网易云音乐API解析

6结论

参考文献

附录1 外文文献译文

大边际隐马尔科夫模型进行自动语音识别

摘要

1 介绍

2 多路分类的大边际GMMs

2.1决策规则的参数化

2.2边际最大化

致谢

大连大学学位论文版权使用授权书

学士学位论文基于树莓派的智能音箱系统作者姓名：孟钦伟学科、专业：学号：通信 142 班 14426044 指导教师：贺明妍（讲师）完成日期： 2018.05.30 大连大学 Dalian University

大连大学学士学位论文格式规范总计: 毕业论文 40 页表格 4 表插图 26 幅指导教师：贺明妍评阅人：完成日期：2018.05.30

摘要语音识别技术是让机器能够通过识别和理解的过程将语言信号转化为响应的命令或是文本的技术。这一技术的出现，将人类从传统的键盘、鼠标、触摸控制中解脱出来，进入到了更加便捷的交互时代。今年来，随着深度学习和语音识别技术的发展，语音将逐渐成为第五代人机交互的重要途径之一。而智能音箱系统的诞生，则很完美的让语音识别系统成功“着陆”。本次设计对语音识别的基本原理进行初步探究，并通过树莓派芯片，实现语音识别系统的搭建。利用本地语音识别方案(Sphinx 语音工具包)与云端语音识别方案（百度语音识别技术）相结合的方式，完成智能操作，实现离线唤醒、智能问答，天气播报，音乐播放，微信接入等功能。在此基础上，开发者可以依据自己的喜好和需要，进行相关功能的扩展。关键词：树莓派；语音识别；自然语言处理；智能音箱 I

Abstract Automatic Speech Recognition is a technology that machine enable to translate speech singal into request or text by the processing of recognition and understanding.People escape from the traditional interaction way like keyboard,mouse,cocoa touch into more convenience age because of the appearance of Automatic Speech Recognition.In recent years,with the developing of the deeplearning and the Automatic Speech Recognition, Voice will be able to becoming an import way as new man-machine interaction. The way of combining Voice Recogniton with Intelligent speakers perfectly resolves the entrance of the Inelligent production. In this design,it is mainly about the basic principle of the speech recognition and setting up a Speech Recognition System on Raspberry Pi 3. By speech recognition in local or in line,achivingoffline awaken ,intelligent opetation, intelligent conversation, weather forecast, music playing, controlling by wechat.On this basis, according to the be fond of developers, who could extend the associative function. Key Words ： Raspberry Pi 3 ； Voice Recongniton ； Nature Language Processing; Intelligent speaker - II -

目录要................................................................................................................................I 摘 Abstract................................................................................................................................. II 言............................................................................................................................... 1 引 1 语音识别概述.................................................................................................................... 2 1.1 选题背景及意义...................................................................................................... 2 1.2 语音识别的发展历史与现状.................................................................................. 2 1.3 语音识别的分类...................................................................................................... 4 1.4 语音识别的技术难点.............................................................................................. 4 1.5 国内发展现状.......................................................................................................... 5 2 语音识别技术原理............................................................................................................ 6 2.1 语音识别系统的组成部分..................................................................................... 6 2.1.1 预处理............................................................................................................ 6 2.1.2 特征提取...................................................................................................... 10 2.2 语音识别常用算法-隐马尔可夫模型...................................................................12 2.2.1 隐马尔可夫模型(HMM)..............................................................................13 3 智能音箱系统搭建方案................................................................................................. 15 3.1 本地语音识别系统................................................................................................ 15 3.1.1Sphinx 语音识别系统...................................................................................15 3.1.2 Sphinx 识别理论简介..................................................................................16 3.1.3 声学模型...................................................................................................... 16 3.1.4 语言字典...................................................................................................... 16 3.1.5 语言模型...................................................................................................... 17 3.1.6 语音解码和搜索算法.................................................................................. 17 3.2 项目环境搭建....................................................................................................... 17 3.3 软件设计框架........................................................................................................ 19 4 云端语音识别方案.......................................................................................................... 22 4.1 STT 服务................................................................................................................ 22 4.2 TTS 服务................................................................................................................ 25 5 插件模块.......................................................................................................................... 27 5.1 扩展模块示例........................................................................................................ 27 5.2 闲聊模式................................................................................................................ 29 5.3 音乐播放模块........................................................................................................ 29 5.3.1 网易云音乐 API 解析.................................................................................29 6 结论.................................................................................................................................. 36 - III -

参考文献....................................................................................................................... 37 谢............................................................................................................................. 42 致大连大学学位论文版权使用授权书................................................................................. 43 - IV -

基于树莓派的智能音箱系统引言随着互联网技术的进一步发展，琳琅满目的硬件设备通过各种智能感知、识别技术，融合到互联网各个领域的应用拓展。可以预见，在不久的将来，LoT 将会取得飞速的发展并迅速占领市场。目前，智能家居中音响作为一件必不可少的产品，结合了众多的功能拓展，逐渐成为智能家居中的“大脑”。言语作为人际交往中最自然最直接的方式之一，在人类文明中有着不可替代的作用。而随着技术的进步，计算机在与人类进行言语沟通上的技术越显成熟。近年来，随着深度学习技术的不断发展，使得语音识别的性能得到了显著提升，京东的叮咚音箱和亚马逊的 echo 推出，都标志着基于语音识别的智能音箱的发展已经进入到了商品化的阶段。人机交互历经几十年的发展，从 PC 时代的键盘鼠标，到初期手机时代的按键，再到智能机时代的触屏，随着科学技术的进步，交互方式在朝着更加方便、舒适和高效的方向发展。为了能更好的控制机器，让用户有更好的反馈体验，我们需要进一步研究更加智能化的交互方式。而人类对于语言的运用已经有了几千年的历史，作为人类最自然方便的信息交流手段之一，当仁不让地称为人机交互的重要媒介。将语音识别与机器结合可完成智能化机器的接口。在国内，对于汉语的非特定人大量词汇连续语音识别方面，可以借鉴国外的先进的语音识别领域成果，本次使用的是卡内基梅隆大学开发的 sphinx 开发的语音识别系统。此系统在连续语音识别应用领域（通讯，语音检索，自动控制等）有着不俗的表现，这是这种广阔的应用前景，使得研究汉语连续语音识别意义重大。本文的主要内容：第一章主要介绍语音识别的发展历程，技术难点和相关的语音识别产品。第二章介绍了语音识别的基本原理，对预处理和特征提取等方法进行了详细的阐述。第三章介绍了在树莓派上搭建基于 Sphinx 的语音识别系统，软件设计方案，模块功能等等。第四章对现有的云端识别进行比较，并介绍使用方式。第五章对于语音识别系统所增加的一些个性化插件功能进行阐述。第六章对本课题所阐述的研究工作进行总结，对整个系统有优化空间或者可改进的地方做出假设性方案，以备日后的功能完善。 1

基于树莓派的智能音箱系统 1 语音识别概述 1.1 选题背景及意义在刚刚过去的 2017 年，人工智能、物联网、可穿戴设备等都已称为科技研究的热点话题，而这些热点话题无一例外，都涉及到了人机交互，而语音识别近年来已经成为人机交互最直接最便捷的方式。语音相比于键盘，鼠标和触摸屏的交互方式来讲，效率更高，且能表达更多更加复杂的情感，对交互体验有很大的提升。据不完全统计，语音市场在全球市场有巨大的前景，每年有 25%以上的增长率。在移动互联网、电信行业、通信行业都呈现了很好的增长态势。在移动互联网领域中，Siri 使得 iphone 用户体验更加良好，可以对手机进行简单的命令操控，发短信，拨打电话等操作。更是能进行安排行程，搜索资料等智能化的操作。如今语音识别在语义理解、语音搜索、语音输入等方面提供各式各样的服务。由此可以看出，语音技术作为一个充满潜力的研究方向，在以后一定会大放异彩。在其他的一些交叉领域，如语音检索: 针对庞大的数据库进行高效检索，也是一个急需解决的问题。语音情感处理：通过说话人的语气和交谈，判断讲话人的情绪，在交流的过程中，情感起着至关重要的作用。各大语音研究厂商也在寻找语音领域中的盈利模式。如科大讯飞在移动互联网的灵犀、录音宝、语音识别服务等。讯飞提供了电信运营商和企业应用方案、消费者的终端方案等，医疗领域中，语音技术可以帮助紧急求助，医患关系存档等多种场景。在智能车载领域中，行车安全是重中之重，通过语音服务可以实现用户导航、通话、社交等。在教育领域，语音的多语种和方言通过语音识别技术来消除差异化。 1.2 语音识别的发展历史与现状语音识别的研究开始于 20 世纪 50 年代，伊始阶段，主要进行的是对语音学和声学基础理论的研究。这个阶段最具有标志性的成果是 1952 年在 AT&T Bell 实验室中实现了单一发音人孤立发音的个别字母的语音识别系统。 20 世纪 60 年代，语音识别研究取得实质性进展。通过语音信号的线性预测编码，进行语音信号的特征提取。线性预测分析和动态规划彻底解决了语音信号模型的产生和语音信号不等长这两个问题。 20 世纪 70 年代，出现了基于动态规划的动态时间规整(Dynamic Time Warping DTW)技术，在这个基础上提出了隐马尔可夫模型(Hidden Markov Model, HMM)理论和矢量量化(Vector Quantization, VQ) [1]。 20 世纪 80 年代，语音识别取得重大突破，尤其是在非特定人、大量词汇连续语音 2

分享到：

赞收藏

资料库

基于树莓派的智能音箱系统.docx

相关推荐

人工智能

热门标签

最新资料