智能语音识别系统

智能语音识别技术作为现代会议系统的发展新方向,赋予会议产品更智能的人机交互体验。在传统会议召开过程中,会议的70%信息都依赖于视觉接收,只有30%信息依赖于声音接收,仅通过声音和视频去进行会议交流,远不能满足现代会议的要求。同时用户会后的文件处理、会议纪要及特定用户的法定程序也要求必须以文字的形式呈现。公信智能语音识别系统可实现每个座席的发言语音进行实时、完整、有序的文字转写,并确保文字与各座席的语音一一对应,转写的文字可实时显示在会场内的大屏显示系统和公信无纸化会议系统屏幕上。

该系统适用于多种应用场景,实现包括会议纪要、培训记录、实时演讲字幕、访谈录音转写、法庭庭审实时记录等。


公信智能语音识别系统,是基于公信全数字会议技术平台上开发,通过网络音频数据与后台ASR(自动语音识别Automatic Speech Recognition)进行对接,并在ASR的支持下,配合公信应用软件,实现实时的语音转写为文字。

GONSIN后台ASR具有本地服务器局域网部署及云平台服务两种模式供选择,满足不同场合的应用需求。两种模式均需使用公信智能会议管理软件-语音识别模块。


公信智能会议管理软件-语音识别模块 V7.1.0(ASR)

语言识别模块 V7.1.0(ASR)是会议管理软件V7.1.0的语音转写功能模块,实现语音转文字功能。会前匹配好与会人员的发言终端,并设置角色,会中语言识别模块即可实时识别各发言终端的语音流,同步生成各角色独立的文件记录及录音文件,并在操作电脑界面及大屏显示界面中呈现。同时可根据设定的模板保存成文件+声音的会议纪要文件。

基本功能
■ 各个角色的语音实时识别,生成单独的录音文件;
■ 各个角色的语音实时识别并转写为文字,生成单独的文字记录文件;
▣ 搭配GONSIN 20000S或领导者系列话筒使用,可支持多个话筒同时开启发言,各个话筒的语音可实时并行识别,生成单独的录音文件并转写为文字(语音转写模块的授权数量需与同时开启话筒的数量匹配);
▣ 搭配GONSIN Z4系列话筒使用,可支持1个话筒开启发言,话筒的语音可实时识别,生成单独的录音文件并转写为文字;
■ 可合并各角色的文字记录及录音,合并生成会议纪要,并支持文本导出;
■ 智能化语义识别,并根据语义智能断句;
■ 录音语音与文字记录可同步回放并对照显示,实现智能文档修正;
▣ 支持关键字检索功能,能快速定位相应内容的位置,大大提高了内容检索的效率;
■ 支持主屏、分屏显示,转写文字实时显示在操作电脑主屏,并投放到大屏显示系统,支持屏幕分辨率自适应;
▣ 配合GONSIN无纸化系统,转写文字可实时在无纸化终端上显示;
▣ 会议系统管理及设置(设备搜索、终端编号、终端拾音灵敏度调节等);
▣ 会议信息编辑及管理(会议内容编辑、人员信息设置、发言终端角色设置等);
▣ 可兼容公信会议系统的不同产品形态的设备使用;
▣ 支持屏幕定制,可视化编辑界面的文字字体、颜色、图片、数据关联等进行设置。支持多种界面风格快速切换;
▣ 软件支持二次开发,根据项目需求可开放接口协议实现定制化开发。

 

轻量级智能语音识别服务器
GX-AS201/GX-AS202/GX-AS205/GX-AS208

轻量级智能语识别服务器是针对中小型会议应用场景的智能语音识别计算产品,内置轻量级的智能语音识别引擎,具备转写 速度快、识别率高、易部署,稳定性强等特点。可满足需要语音转写和记录的会议场景,实现有效的会议留痕。同时服务器体积 小,系统对接简单,使用便捷,方便携带,可满足针对不同会议场所的快速设备切换和系统搭建,实现有效的设备共享。适用于固 定会场、临时会场及租赁性质的会议场景。

基本功能
内嵌ASR智能语音识别引擎
不同型号的语音识别服务器可实现不同数量的语音转写能力
GX-AS201:支持1路语音识别能力
GX-AS202:支持2路语音识别能力
GX-AS205:支持5路语音识别能力
GX-AS208:支持8路语音识别能力
业界领先的单遍大规模语言模型解码技术
标准引擎支持普通话及普通话体系的方言及口音识别
支持21种方言:湖北话、四川话、山西话、河南话、陕西话、东北话、天津话、甘肃话、贵州话、云南话、江西话、广西话、宁夏话、湖南话、山东话、苏州话、浙江话、上海话、粤语、闽南语、维语
支持16种外语:英语、日语、西班牙语、阿拉伯语、韩语、 哈沙克语、俄语、法语、印尼语、越南语、菲律宾语、印地语、德语、意大利语、马来语、泰语
可定制金融、政法、医疗、教育等用行业识别引擎
配合GONSIN会议管理系统,可实现各参会角色的语音分离识别,满足同一场会议内多个话筒同时打开的语音识别需求
 

智能语音识别服务器 GX-AS301
内嵌ASR智能语音识别引擎V3.0以及语音转写模块授权V1.0



基本功能
安装ASR智能语音识别引擎V3.0软件
局域网内(会议中心/多会议室集群)多个会议室语音识别。
支持公信全系列讨论系统产品,同一时间最大支持50路语音转写(根据语音转写模块的授权数)
最大支持50路语音识别并发授权
业界领先的单遍大规模语言模型解码技术
标准引擎支持普通话及普通话体系的方言及口音识别
支持21种方言:湖北话、四川话、山西话、河南话、陕西话、东北话、天津话、甘肃话、贵州话、云南话、江西话、广西话、宁夏话、湖南话、山东话、苏州话、浙江话、上海话、粤语、闽南语、维语
支持16种外语:英语、日语、西班牙语、阿拉伯语、韩语、哈沙克语、俄语、法语、印尼语、越南语、菲律宾语、印地语、德语、意大利语、马来语、泰语
可定制金融、政法、医疗、教育等用行业识别引擎
高效率CTC模型,通过选配授权,最大支持50路语音并发识别
支持会议中心多会议室局域网集中部署,满足多会议室并行语音转写
配合GONSIN管理系统,可实现各角色分离识别
支持在会议中心集群部署或本地会议室部署


音频扩展器 DCS-AE04
基本功能
■ 支持设备级联,最大可级联至32通道 
■ 支持DA/AD两种工作模式,可根据不同的应用场景进行设置:
 ■ DA模式:可将数字音频转成模拟音频,实现系统扩展
 ■ AD模式:可将模拟音频转换成数字音频,实现数字传输

系统连线图


 

ASR智能语音识别引擎 V3.0
基本功能
业界领先的单遍大规模语言模型解码技术
标准引擎支持普通话及普通话体系的方言及口音识别
支持21种方言:湖北话、四川话、山西话、河南话、陕西话、东北话、天津话、甘肃话、贵州话、云南话、江西话、广西话、宁夏话、湖南话、山东话、苏州话、浙江话、上海话、粤语、闽南语、维语
支持16种外语:英语、日语、西班牙语、阿拉伯语、韩语、哈沙克语、俄语、法语、印尼语、越南语、菲律宾语、印地语、德语、意大利语、马来语、泰语
可定制金融、政法、医疗、教育等用行业识别引擎
高效率CTC模型,通过选配授权,最大支持50路语音并发识别
支持会议中心多会议室局域网集中部署,满足多会议室并行语音转写
配合GONSIN管理系统,可实际各角色分离识别
ASR智能语音识别引擎V3.0软件将安装在智能语音识别服务器中运行


轻量级私有化部署方案连接示意图


会议室集群(局域网)私有化部署方案连接示意图