智能语音识别解决方案以国产芯片和国产操作系统平台为基础,支持便携式一体机和分布式云环境两种部署方式。可向用户提供实时语音/音视频文件转文字、回溯编辑、保存音频文件、音像图等高级服务,方便文件归档及后期查询。
01。
智能语音识别解决方案多种场景实时语音文字转换的功能。
智能语音识别解决方案可以为多种应用场景提供稳定高效的实时语音转换能力。
讲话:在个人或企业的公共演讲或内部培训记录中使用,它可以记录演讲内容,转写存量音频,以及后期整理语音记录。
会议:用于重要会议的场景,公检法上的庭审,会议内容记录,可以对与会者的发言内容和庭审内容进行速记和输出。
个人速记:政府官员、企业家的口述记录,或如作家、编剧、记者等口述写作时,可以速记讲话的内容和转写存量音频。
面谈:用于采访记录中的场景,如律师、咨询顾问、企业采访、专题访谈,并能输出访谈内容和转写存量音频。
和业内主流智能语音识别产品相比,智能语音识别解决方案具有明显的优势。智能语音识别解决方案支持汉语普通话和中英文混合,可根据用户需要定制专业词汇库;基于数万小时级别的声学模型和TB级语言模型建模;近场识别场景下的语音识别准确率达96%;支持识别特定口音的语音,并提供端到端优化功能等。
02。
智能语音识别解决方案体系结构。
通过统一的体系结构,智能语音识别解决方案支持多种应用场景和不同的部署方案。
体系框架构成。
声音数据采集:主要用来处理话筒或语音文件提交的语音数据。它通过采集话筒输入的实时语音数据,将采集到的实时语音数据分割成标准的语音包,以方便语音处理引擎对语音数据包进行识别处理。
语音格式转换及预处理:主要用于语音格式转换及语音识别的预处理。接收到语音文件后,模块对语音文件进行转换和分解,得到标准的语音数据包,以方便语音处理引擎对语音包进行识别处理。
语音处理引擎:主要是语音识别。在接收到标准语音包后,该模块对语音包进行特征提取、语音解码、字典搜索等操作,然后输出文本识别结果。
音标图:主要用来处理语音数据和识别文本的映射。它能将已识别的文本与经过采集处理的标准语音包进行映射连接。在输出文本中点击链接,用户可以直接播放语音包。