SenseAudio的语音识别(Automatic Speech Recognition, ASR)是专为多场景设计的全栈式语音识别解决方案。从极致的实时响应到深度的语义理解与音频质量检测,SenseASR 系列涵盖了从基础识别到智能内容生成的全链路需求,旨在帮助开发者快速构建高性能的语音应用。
深度优化音频处理链路,确保快速响应:
突破传统的逐字识别,融入深度的语义理解:
针对口语转文字的痛点,提供自动优化技术:
支持在识别链路中对音频进行评估,确保数据处理的可靠性:
在日常会议、讲座培训或多方谈话场景下,实现语音内容的同步记录与归档。支持标准话语的稳定识别,确保会议纪要的准确性与时效性。
针对媒体访谈、演讲稿录入、自媒体创作等专业场景,提供基于大模型的文本精修服务。自动处理口语冗余,将原始素材直接转化为可阅读的专业文稿。
为智能家居、车载系统、穿戴设备提供高效的语音反馈能力。在接收到用户的短语音输入后,系统迅速返回识别结果,驱动下游指令执行。
构建智能教学助手,对课堂教学、在线讲座或语言学习音频进行文字化处理。支持多语种环境下的精准识别,辅助生成学习笔记与教学参考。
| 能力 | sense-asr-lite | sense-asr | sense-asr-pro | sense-asr-deepthink |
|---|---|---|---|---|
| 基础识别 | ✅ | ✅ | ✅ | ✅ |
| 流式返回 | ❌ | ✅ | ✅ | ✅ |
| 说话人分离 | ❌ | ✅ | ✅ | ❌ |
| 情感分析 | ❌ | ✅ | ✅ | ❌ |
| 字级时间戳 | ❌ | ✅ | ✅ | ❌ |
| 句级时间戳 | ❌ | ✅ | ✅ | ❌ |
| 翻译 | ❌ | ✅ | ✅ | ✅ |
| 热词增强 | ✅ | ❌ | ❌ | ❌ |
| ITN(逆文本规范化) | ✅ | ✅ | ✅ | ❌ |
| 智能编辑收敛 | ❌ | ❌ | ❌ | ✅ |
| 多语言支持 | ✅ | ✅ | ✅ | ✅ |
SenseAudio 提供两种接口协议,满足不同场景的语音识别需求:
基于标准 HTTP 协议的语音识别服务,适用于离线音频文件识别场景。
| 接口路径 | 接口类型 | 说明 | 支持模型 |
|---|---|---|---|
/v1/audio/transcriptions | POST | 多模型语音识别统一接口,支持文件上传、流式返回、说话人分离、情感分析、字级时间戳、翻译等功能 | Lite、Standard、Pro、DeepThink |
核心特性:
基于 WebSocket 协议的全双工实时语音识别,适用于实时语音交互场景。
| 接口路径 | 接口类型 | 说明 | 支持模型 |
|---|---|---|---|
/ws/v1/audio/transcriptions | WebSocket | 实时语音流识别,支持边录边转、VAD 自动断句、智能指令翻译 | DeepThink |
核心特性:
根据业务场景选择合适的接口:
| 场景 | 推荐接口 | 理由 |
|---|---|---|
| 录音文件识别 | HTTP 统一接口 | 支持多种文件格式,功能丰富(说话人分离、情感分析等) |
| 实时语音对话 | WebSocket 实时接口 | 低延迟,边说边识别,适合交互场景 |
| 批量音频处理 | HTTP 统一接口 | 稳定可靠,支持并发请求 |
| 智能语音助手 | WebSocket 实时接口 | 实时反馈,支持智能指令解析 |
| 会议记录(离线) | HTTP 统一接口(Pro 模型) | 支持说话人分离、字级时间戳 |
| 会议记录(实时) | WebSocket 实时接口 | 实时生成会议纪要 |