logo
平台介绍
快速接入
密钥管理
文本转语音
音色克隆
音色列表
智能体
视频生成
语音识别
语音识别介绍
POST
语音识别API
WSS
WebSocket 实时识别
POST
音频质量检测
GET
语音识别历史
计费规则
常见问题
工作台
立即登录

语音识别 API (ASR)

SenseAudio的语音识别(Automatic Speech Recognition, ASR)是专为多场景设计的全栈式语音识别解决方案。从极致的实时响应到深度的语义理解与音频质量检测,SenseASR 系列涵盖了从基础识别到智能内容生成的全链路需求,旨在帮助开发者快速构建高性能的语音应用。

核心特性

1. 极致响应与超低延迟

深度优化音频处理链路,确保快速响应:

  • 低延迟体验:优化流式识别链路,实现”所见即所言”,首屏反馈延迟极低。
  • 高性能并发支撑:成熟的分布式架构,能够稳定承载大规模并发请求,保障业务高峰期的服务连续性。

2. 语义智能识别

突破传统的逐字识别,融入深度的语义理解:

  • 意图感知:识别过程中同步理解语义,能够精准捕获说话人的核心意图。
  • 语境逻辑优化:结合上下文进行语义识别,有效提升在复杂表述或特定行业语境下的识别准确度。

3. 智能内容整理与书面化

针对口语转文字的痛点,提供自动优化技术:

  • 智能整理:自动识别并剔除口语中的”呃、啊、那个”等冗余词与语气词;自动识别改口、重复,直接整合最终结论。
  • 逻辑条理化:支持自动分段、修正词汇偏差,将杂乱的口语转化为逻辑清晰、排版规范的书面化文档。

4. 音频质量监测

支持在识别链路中对音频进行评估,确保数据处理的可靠性:

  • 多维质量报告:评估噪声分数,噪声种类等。
  • 噪声分析: 对音频噪声进行专业分析,帮助开发者筛选或评估原始音频文件的质量。

应用场景

办公协作与数字化会议

在日常会议、讲座培训或多方谈话场景下,实现语音内容的同步记录与归档。支持标准话语的稳定识别,确保会议纪要的准确性与时效性。

  • 核心价值:提供高精度的通用识别能力,支持长音频文件的一键识别,助力企业知识资产的沉淀。

深度采编与内容生产

针对媒体访谈、演讲稿录入、自媒体创作等专业场景,提供基于大模型的文本精修服务。自动处理口语冗余,将原始素材直接转化为可阅读的专业文稿。

  • 核心价值:实现口语转书面表达,自动剔除语气词并进行逻辑分段,减少人工二次整理工作。

智能指令与设备控制

为智能家居、车载系统、穿戴设备提供高效的语音反馈能力。在接收到用户的短语音输入后,系统迅速返回识别结果,驱动下游指令执行。

  • 核心价值:实现低延迟的任务反馈,保障在车载交互或智能家居控制中的流畅体验。

教育培训与学术整理

构建智能教学助手,对课堂教学、在线讲座或语言学习音频进行文字化处理。支持多语种环境下的精准识别,辅助生成学习笔记与教学参考。

  • 核心价值:支持专业词汇的准确识别,帮助学生或研究人员快速提取核心知识点,实现学习路径的个性化管理。

模型对比

能力sense-asr-litesense-asrsense-asr-prosense-asr-deepthink
基础识别✅✅✅✅
流式返回❌✅✅✅
说话人分离❌✅✅❌
情感分析❌✅✅❌
字级时间戳❌✅✅❌
句级时间戳❌✅✅❌
翻译❌✅✅✅
热词增强✅❌❌❌
ITN(逆文本规范化)✅✅✅❌
智能编辑收敛❌❌❌✅
多语言支持✅✅✅✅

接口概览

SenseAudio 提供两种接口协议,满足不同场景的语音识别需求:

HTTP 统一接口

基于标准 HTTP 协议的语音识别服务,适用于离线音频文件识别场景。

接口路径接口类型说明支持模型
/v1/audio/transcriptionsPOST多模型语音识别统一接口,支持文件上传、流式返回、说话人分离、情感分析、字级时间戳、翻译等功能Lite、Standard、Pro、DeepThink

核心特性:

  • 支持 4 种识别模型,灵活选择速度与精度
  • 支持 wav、mp3、ogg、pcm、flac、aac、m4a 等多种音频格式
  • 提供 JSON、Text、Verbose JSON、SSE 流式等多种响应格式
  • 兼容 OpenAI Audio API 风格,易于迁移

WebSocket 实时接口

基于 WebSocket 协议的全双工实时语音识别,适用于实时语音交互场景。

接口路径接口类型说明支持模型
/ws/v1/audio/transcriptionsWebSocket实时语音流识别,支持边录边转、VAD 自动断句、智能指令翻译DeepThink

核心特性:

  • 全双工通信,音频上传与文本下发同步进行,延迟极低
  • 内置 VAD(语音活动检测),自动识别语音停顿并智能断句
  • 支持智能指令转译
  • 支持多种语言的实时识别

接口选择指南

根据业务场景选择合适的接口:

场景推荐接口理由
录音文件识别HTTP 统一接口支持多种文件格式,功能丰富(说话人分离、情感分析等)
实时语音对话WebSocket 实时接口低延迟,边说边识别,适合交互场景
批量音频处理HTTP 统一接口稳定可靠,支持并发请求
智能语音助手WebSocket 实时接口实时反馈,支持智能指令解析
会议记录(离线)HTTP 统一接口(Pro 模型)支持说话人分离、字级时间戳
会议记录(实时)WebSocket 实时接口实时生成会议纪要