智能语音识别系统

智能语音识别技术作为现代会议系统的发展新方向,赋予会议产品更智能的人机交互体验。在传统会议召开过程中,会议的70%信息都依赖于视觉接收,只有30%信息依赖于声音接收,仅通过声音和视频去进行会议交流,远不能满足现代会议的要求。同时用户会后的文件处理、会议纪要及特定用户的法定程序也要求必须以文字的形式呈现。公信智能语音识别系统可实现每个座席的发言语音进行实时、完整、有序的文字转写,并确保文字与各座席的语音一一对应,转写的文字可实时显示在会场内的大屏显示系统和公信无纸化会议系统屏幕上。

该系统适用于多种应用场景,实现包括会议纪要、培训记录、实时演讲字幕、访谈录音转写、法庭庭审实时记录等。


公信智能语音识别系统,是基于公信全数字会议技术平台上开发,通过网络音频数据与后台ASR(自动语音识别Automatic Speech Recognition)进行对接,并在ASR的支持下,配合公信应用软件,实现实时的语音转写为文字。

GONSIN后台ASR具有本地服务器局域网部署及云平台服务两种模式供选择,满足不同场合的应用需求。两种模式均需使用公信智能会议管理软件-语音识别模块。


语言识别模块 V7.1.0(ASR)是会议管理软件V7.1.0的语音转写功能模块,实现语音转文字功能。会前匹配好与会人员的发言终端,并设置角色,会中语言识别模块即可实时识别各发言终端的语音流,同步生成各角色独立的文件记录及录音文件,并在操作电脑界面及大屏显示界面中呈现。同时可根据设定的模板保存成文件+声音的会议纪要文件。

基本功能
■ 各个角色的语音实时识别,生成单独的录音文件;
■ 各个角色的语音实时识别并转写为文字,生成单独的文字记录文件;
▣ 搭配GONSIN 20000S或领导者系列话筒使用,可支持多个话筒同时开启发言,各个话筒的语音可实时并行识别,生成单独的录
音文件并转写为文字(语音转写模块的授权数量需与同时开启话筒的数量匹配);
▣ 搭配GONSIN Z4系列话筒使用,可支持1个话筒开启发言,话筒的语音可实时识别,生成单独的录音文件并转写为文字;
■ 可合并各角色的文字记录及录音,合并生成会议纪要,并支持文本导出;
■ 智能化语义识别,并根据语义智能断句;
■ 录音语音与文字记录可同步回放并对照显示,实现智能文档修正;
▣ 支持关键字检索功能,能快速定位相应内容的位置,大大提高了内容检索的效率;
■ 支持主屏、分屏显示,转写文字实时显示在操作电脑主屏,并投放到大屏显示系统,支持屏幕分辨率自适应;
▣ 配合GONSIN无纸化系统,转写文字可实时在无纸化终端上显示;
▣ 会议系统管理及设置(设备搜索、终端编号、终端拾音灵敏度调节等);
▣ 会议信息编辑及管理(会议内容编辑、人员信息设置、发言终端角色设置等);
▣ 可兼容公信会议系统的不同产品形态的设备使用;
▣ 支持屏幕定制,可视化编辑界面的文字字体、颜色、图片、数据关联等进行设置。支持多种界面风格快速切换;
▣ 软件支持二次开发,根据项目需求可开放接口协议实现定制化开发。

技术参数

内嵌ASR智能语音识别引擎V3.0以及语音转写模块授权V1.0


基本功能
■ 安装ASR智能语音识别引擎V3.0软件;
■ 业界领先的单遍大规模语言模型解码技术;
▣ 标准引擎支持普通话及普通话体系的方言及口音识别;
▣ 可定制维吾尔语少数民族语言识别引擎;
▣ 可定制四川话、粤语、上海话、湖北话、湖南话、河南话、浙江话、天津话云南话等部分地方方言识别引擎
▣ 可定制英语、俄语、泰语识别引擎;
▣ 可定制金融、政法、医疗、教育等用行业识别引擎;
■ 高效率CTC模型,通过选配授权,最大支持50路语音并发识别;
■ 支持会议中心多会议室局域网集中部署,满足多会议室并行语音转写;
▣ 配合GONSIN管理系统,可实现各角色分离识别。
▣ 支持在会议中心集群部署或本地会议室部署。

技术参数

基本功能
■ 业界领先的单遍大规模语言模型解码技术;
▣ 标准引擎支持普通话及普通话体系的方言及口音识别;
▣ 可定制维吾尔语少数民族语言识别引擎;
▣ 可定制四川话、粤语、上海话、湖北话、湖南话、河南话、浙江话、天津话云南话等部分地方方言识别引擎
▣ 可定制英语、俄语、泰语识别引擎;
▣ 可定制金融、政法、医疗、教育等用行业识别引擎;
■ 高效率CTC模型,通过选配授权,最大支持50路语音并发识别;
■ 支持会议中心多会议室局域网集中部署,满足多会议室并行语音转写;
▣ 配合GONSIN管理系统,可实际各角色分离识别;
▣ ASR智能语音识别引擎V3.0软件将安装在智能语音识别服务器中运行。

ASR会议集群部署方案连接图