搜档网
当前位置:搜档网 › SYN7318_产品使用说明书v1.5

SYN7318_产品使用说明书v1.5

SYN7318语音交互模块

使用说明书SYN7318中文语音交互模块使用说明书修正记录:

重要声明

版权声明

版权归北京宇音天下科技有限公司所有,保留所有权利。

商标声明

北京宇音天下科技有限公司的产品是北京宇音天下科技有限公司专有。在提及其他公司及其产品时将使用各自公司所拥有的商标,这种使用的目的仅限于引用。本文档可能涉及北京宇音天下科技有限公司的专利(或正在申请的专利)、商标、版权或其他知识产权,除非得到北京宇音天下科技有限公司的明确书面许可协议,本文档不授予使用这些专利(或正在申请的专利)、商标、版权或其他知识产权的任何许可协议。

不作保证声明

北京宇音天下科技有限公司不对此文档中的任何内容作任何明示或暗示的陈述或保证,而且不对特定目的的适销性及适用性或者任何间接、特殊或连带的损失承担任何责任。本手册内容若有变动,恕不另行通知。本手册例子中所用的公司、人名和数据若非特别声明,均属虚构。未得到北京宇音天下科技有限公司明确的书面许可,不得为任何目的、以任何形式或手段(电子的或机械的)复制或传播手册的任何部分。

保密声明

本文档(包括任何附件)包含的信息是保密信息。接收人了解其获得的本文档是保密的,除用于规定的目的外不得用于任何目的,也不得将本文档泄露给任何第三方。

本软件产品受最终用户许可协议(EULA)中所述条款和条件的约束,该协议位于产品文档和/或软件产品的联机文档中,使用本产品,表明您已阅读并接受了EULA 的条款。

版权所有:北京宇音天下科技有限公司(微信号 yytxswb)

目录

1概述 (6)

2主要应用领域 (6)

3产品功能描述 (7)

3.1语音合成 (7)

3.2语音识别 (8)

3.3语音唤醒 (8)

3.4MP3音乐播放 (8)

3.5控制查询 (9)

4订货信息 (10)

5系统构成框图 (10)

6通讯方式 (11)

6.1UART通讯模式 (11)

6.1.1硬件连接 (11)

6.1.2通讯传输字节格式 (11)

6.1.3波特率配置方法 (12)

7通信帧定义及通信控制 (12)

7.1命令帧格式和特别说明 (12)

7.2模块支持的控制命令汇总 (13)

7.3模块支持的命令回传汇总 (15)

7.4语音合成播放相关命令 (16)

7.4.1语音合成播放命令 (16)

7.4.2语音合成缓存存储命令 (17)

7.4.3语义合成缓存播放命令 (18)

7.4.4语义合成缓存播放举例 (19)

7.5MP3播放相关命令 (20)

7.5.1MP3播放命令 (20)

7.6播放控制相关命令 (21)

7.6.1停止播放命令 (21)

7.6.2暂停播放命令 (21)

7.6.3恢复播放命令 (21)

7.6.4播放音量设置命令 (22)

7.7语音识别相关命令 (22)

7.7.1识别词条更新命令(含回传) (22)

7.7.2设置语音识别参数命令 (25)

7.7.3开始语音识别命令(含回传) (26)

7.7.4停止语音识别命令 (26)

7.7.5三合一识别命令(含回传) (27)

7.7.6停止三合一识别命令 (28)

7.7.7识别词条缓存存储命令 (28)

7.7.8识别词条缓存更新命令(含回传) (29)

7.8语音唤醒相关命令 (30)

7.8.2停止语音唤醒命令 (30)

7.9综合命令 (31)

7.9.1状态查询命令(含回传) (31)

7.9.2指示灯设置命令 (31)

7.9.3模块版本查询命令 (32)

7.9.4词典资源烧录命令 (32)

8引脚定义 (34)

9产品规格 (37)

9.1封装 (37)

9.2 特性参数 (38)

9.2.1模块工作功耗 (38)

9.2.2推荐电压工作范围 (39)

9.2.3ADC特性 (39)

9.2.4DAC特性(Headphone Output) (39)

9.2.5DAC特性(SPK Output) (40)

9.3 焊接工艺要求 (41)

9.3.1烘烤温度及时间 (41)

9.3.2回流焊的峰值温度 (41)

10附录 (42)

10.1文本控制标记 (42)

10.2文本控制标记使用示例 (44)

10.2.1标记[i*] –识别汉语拼音 (44)

10.2.2标记[m*] –发音人选择 (44)

10.2.3标记[n*] –数字处理策略 (44)

10.2.4标记[p*] –静音一段时间 (45)

10.2.5标记[r*] –姓氏读音策略 (45)

10.2.6标记[s*] –语速调节 (45)

10.2.7标记[t*] –语调调节 (45)

10.2.8标记[v*] –音量调节 (46)

10.2.9标记[x*] –提示音策略 (46)

10.2.10标记[y*] –号码1的读法 (46)

10.2.11标记[z*] –韵律标注处理策略 (46)

10.2.12标记[=*] –强制单个汉字的拼音 (47)

10.2.13标记[f*] –发音风格 (47)

10.2.14标记[b*] –读标点策略 (47)

10.2.15标记[d] –恢复默认 (47)

10.3提示音效 (47)

10.3.1和弦提示音列表 (47)

10.3.2声音提示音列表 (48)

10.4上位机对SYN7318模块的调用方式 (50)

10.4.1简单调用方式 (50)

10.4.2标准调用方式 (50)

10.5查询模块工作状态的方法 (51)

10.6模块识别的编码体系和范围 (51)

10.6.1GB2312编码体系 (51)

10.6.3BIG5编码体系 (52)

10.6.4Unicode编码体系 (52)

11发送合成文本的示例程序 (53)

11.1 C 语言语音合成范例程序 (53)

11.2汇编语言范例程序 (54)

1概述

SYN7318中文语音交互模块集成了语音识别、语音合成和语音唤醒功能模块。

SYN7318通过UART接口通讯方式接收命令帧。如控制命令帧、待合成的文本数据,实现文本到语音、语音到文本的转换以及语音唤醒功能。

在语音识别方面,SYN7318可以支持10000条词条的语音识别,可实现语义理解,用户不用再像中低端识别模块一样必须按固定文本命令啦,SYN7318大大满足了人机交互领域对交互内容丰富程度的强烈需求。另外SYN7318还可以支持识别词条的分类反馈能力。可以灵活的对语义相似词条根据用户指定的语义类别进行词条ID和命令ID的对应。如对于“请开灯 1”、“开灯 1”“把灯打开 1”、均可以反馈为用户指定的命令ID=1。

本模块还可以支持语音唤醒功能,内部支持六种有趣的唤醒名字,分别为“小播”、“Hi 小播”、“云宝”、“Hi 云宝”、“百灵”、“Hi 百灵”。在唤醒模式下简单语音呼叫就可以唤醒,更加拓宽了应用领域和使用场景。可以很好满足大部分使用场景和需求。

模块内部还集成了MP3音频文件的播放功能,可以使用命令帧控制MP3音频文件的播放、暂停、恢复、停止动作。

SYN7318语音合成模块的诞生,将推动TTS语音合成技术以及ASR语音识别技术的行业应用走向更深入、更广泛!

2主要应用领域

●车载 GPS 调度终端●固定电话

●信息机●税控机

●考勤机●公交车语音报站器

●排队机●自动售货机

●气象预警机● POS 机

●智能仪器●智能仪表

●智能玩具●语音导游

●插卡音箱● DVD

●故事机●学习机

●点读机●高端玩具

3产品功能描述

3.1语音合成

●文本合成功能

清晰、自然、准确的中文语音合成效果。模块支持任意中文文本的合成,可以采用GB2312、GBK、BIG5 和Unicode大头或Unicode小头四类五种编码方式。模块支持英文字母的合成,遇到英文单词时按字母方式发音。每次合成的文本量可达4K字节。

●文本智能分析处理

模块具有文本智能分析处理功能,对常见的数值、电话号码、时间日期、度量衡符号等格式的文本,模块能够根据内置的文本匹配规则进行正确的识别和处理。

例如:“2012-05-01 10:36:28”读作“二零一二年五月一日十点三十六分二十八秒”,“火车的速度是622km/h”读作“火车的速度是六百二十二公里每小时”,“-12℃”读作“零下十二摄氏度”,等等。

●多音字处理和中文姓氏处理能力

对存在多音字的文本,例如:“银行行长穿过人行道向骑着自行车的银行职员行走过去”,模块可以自动对文本进行分析,判别文本中多音字的读法并合成正确的读音。

有些汉字作为姓氏使用时,会出现一些非常规的读法,模块可以自动进行处理。例如:“他是一位姓朴的朴素的韩国艺人。”,句中两个“朴”字前面一个读作“piao2”,后面一个读作“pu3”。

●支持10级音量调整和10级语速调整和10级语调调整

模块可实现10级数字音量控制,音量更大,更广。支持语速语调的调节,满足各种不同的应用需求。

●提示音

模块内集成了 77 首声音提示音,可用于不同行业不同场合的信息提醒、报警等功能。

模块内集成了 14 首和弦音乐,可用作和弦短信提示音或者和弦铃声。

模块还支持客户增加自己的提示音,满足客户对特定文本合成或特定提示音的需求。客户可根据需要删除和增加提示音。

●支持多个发音人

提供两男、两女、一个效果器和一个女童声共6个中文发音人,可以通过使用特殊标记[m?]来切换模块的发音人。[m3] :女声“晓玲”; [m51]:男声“尹小坚”; [m52]:男声“易小强”; [m53]:女声“田蓓蓓”; [m54]:效果器“唐老鸭”;[m55]:女童声“小燕子”。

●支持多种文本控制标记

模块支持多种文本控制标记。可通过发送“合成命令”发送文本控制标记,调节语速、语调、音量。

还可以使用控制标记提升文本处理的正确率,如:设置句子的韵律、设置数字读法、设置姓氏读音策略、设置号码中“1”的读法等。

3.2语音识别

●非特定人命令词识别。

不限定被识别语音范围,男女老幼语音均可使用普通话进行识别。

●支持中文、英文、中英文混合识别。

词条无中英文限制,可进行中文、英文、中英混合词条的识别,使用范围广,简单灵活。

●支持定义10000条语音命令,识别命令词可以动态更新。

用户可以通过控制命令直接更新内部词条。

词条更新支持两种方式:

1,基本词条更新方式

词条编辑格式为“开灯|请开灯|把灯打开|关灯|请关灯|把灯关了|亮一点|再亮一点”。

2,携带命令ID方式

词条编辑格式为“开灯 1|请开灯 1|把灯打开 1|关灯 2|请关灯 2|把灯关了 2|亮一点 3|再亮一点3”。

●超时检测。

模块在规定时间内未检测到有效音频数据会做超时处理。

●拒识功能。

3.3语音唤醒

●支持六种特定名字的唤醒功能

模块支持六种唤醒名字进行唤醒。分别为“小播”、“Hi 小播”、“云宝”、“Hi 云宝”、“百灵”、“Hi 百灵”。

●设置唤醒名字方便快速。

用户可以通过控制命令设置模块的当前唤醒名为六种唤醒名种的任意一个,为设备取一个名字。

●交互方式简单有趣。

可以通过控制命令开启唤醒模式,之后进行人机语音唤醒的交互。

3.4M P3音乐播放

●支持MP3格式的音频播放功能可以作为简单的音乐播放器使用

模块支持MP3 音频文件播放功能,用户可以通过MP3 播放命令来开启MP3播放,并可以进行暂停、恢复、停止功能。

注意:需外挂TF卡

3.5控制查询

●支持多种控制命令

控制命令包括:合成文本、停止合成、暂停合成、恢复合成、开启识别、停止识别、开启唤醒、停止唤醒、状态查询、进入Power Down模式。控制器通过通讯接口发送控制命令实现对模块的控制。

●查询模块的工作状态

支持多种方式查询模块的工作状态,包括:查询状态管脚电平、通过读模块自动返回的回传、发送查询命令获得模块工作状态的回传。

●通讯模式

模块支持UART通讯方式。模块串口支持的通讯波特率:4800bps,9600bps,57600bps、115200bps 。

4订货信息

5系统构成框图

一般应用中语音合成系统最小系统需要包括:控制器模块、SYN7318模块、功放模块、喇叭。如果需要使用语音识别功能,系统中还需要增加麦克风。

语音合成系统中,主控制器和 SYN7318模块之间可以通过 UART 接口连接,控制器可通过上述通讯接口向 SYN7318模块发送控制命令和文本,SYN7318模块接收到文本后合成为语音信号输出,输出的信号经功率放大器进行放大后连接到喇叭进行播放。

用户在使用语音识别或语音唤醒功能时,上位机发送启动语音识别或语音唤醒功能的命令给语音模块,模块把从麦克风采集到的语音数据,通过内部的识别模块进行转换成相应的识别结果,通过通讯接口回传给控制器。

MP3播放功能的使用,只需要将要播放的MP3的信息根据既定格式编辑成命令,通过UART发送给模块即可实现播放。

6通讯方式

SYN7318模块支持UART通讯方式,允许上位机发送数据的最大长度为4KB。

6.1U ART通讯模式

6.1.1硬件连接

SYN7318模块UART接口与MCU的连接示意图

SYN7318模块UART接口与PC的连接示意图

6.1.2通讯传输字节格式

UART接口通讯传输字节格式

1)通信标准:UART

2)波特率:最高为115200 bps

3)起始位:1 bit

4)数据位:8 bits

5)停止位:1 bit

6)校验:无

6.1.3波特率配置方法

SYN7318模块的 UART 通讯接口支持 4 种通讯波特率:4800 bps、9600 bps、57600 bps、115200 bps。硬件配置方法:通过配置SYN7318模块的两个管脚 BAUD0(11引脚)、BAUD1(12引脚)上的电平(00-4800bps、01-9600bps、10-57600bps、11-115200bps)改变波特率。

7通信帧定义及通信控制

7.1命令帧格式和特别说明

模块支持以下命令帧格式:“帧头FD + 数据区长度+数据区”格式。

上位机发送给SYN7318模块的所有命令和数据都需要用“帧”的方式进行封装后传输。

否则模块会报接收失败。

特别说明:

●同一帧数据中,每个字节之间的发送间隔不能超过15ms;帧与帧之间的发送间隔必须超过15ms(为保证

通信质量,建议至少留2ms余量,即:大于17ms)。

●当 SYN7318 模块正在合成文本的时候,如果又接收到一帧有效的合成命令帧,模块会立即停止当前正在

合成的文本,转而合成新收到的文本。

●待发送命令帧长度必须小于等于4096字节。实际发送的长度大于4096时,模块会报接收失败。

●用户在连续播放文本内容时,在收到前一帧数据播放完毕的“模块空闲”字节(即0x4F)后,最好延时

1ms左右再发送下一帧数据。

7.2模块支持的控制命令汇总

上位机以命令帧的格式向SYN7318模块发送命令。SYN7318模块根据命令帧进行相应操作,并向上位机返回命令操作结果。

SYN7318模块提供了多种控制命令,列表如下:

7.3模块支持的命令回传汇总

●SYN7318 模块在初始化成功时会向上位机发送“初始化成功”回传。

●上位机发出控制命令帧,SYN7318接收到控制命令帧后,会向上位机发送几个字节的状态回传,上位机

可根据这个回传来判断模块目前的工作状态。

●SYN7318 模块空闲时会向上位机发送“模块空闲状态”回传。

7.4 语音合成播放相关命令

7.4.1 语音合成播放命令

7.4.2语音合成缓存存储命令

模块内部设有 16 段文本缓存区,段位分别为 0—15,用户可以把多条文本(≤16 条)发送到模块的缓存区内,并在发送时指定存放的段位。存放后可以通过发送“缓存文本播放命令”来播放缓存的文本,并可以设置播报次数。

说明:

●本功能为特殊应用;可实现【短信等乱序接收后的正常播报】;目前在气象预警、自然灾害预警、

水利预警等行业应用广泛。

●本功能可以将被打乱顺序的一段文本按客户希望的顺序分段缓存后再一起播放。

●请用户按要求正确使用【文本缓存存储命令0x31命令】和【文本缓存播放命令0x32命令】。

●缓存的总空间为4K,共分16个区,每个区的空间为256字节。

●设本次命令设置的起始缓存区段= X(0≤X≤15),则本次发送的文本长度不能大于(16- X)*256

字节。多余的文本将丢弃。

●用户在发送【文本缓存播放命令0x32】之前,可多次发送【文本缓存存储命令0x31】任意安排区段

的内容。但切记后来发送的文本不能部分覆盖或全部覆盖之前的文本,否则不保证播放的正确性。

●若模块还处于合成播放状态,发送此命令将中止合成播放。

7.4.3语义合成缓存播放命令

插入其它命令,文本缓存区的内容可能被清空。

7.4.4语义合成缓存播放举例

7.5 MP3播放相关命令

7.5.1 MP3播放命令

模块可支持MP3播放功能。MP3的存储位置为外部挂载的TF 卡。用户外挂TF 卡后(已存储了对应的

MP3文件),根据以下命令格式进行MP3的播放控制。

相关主题