logo
平台介绍
快速接入
密钥管理
文本转语音
音色克隆
音色列表
智能体
视频生成
语音识别
语音识别介绍
POST
语音识别API
WSS
WebSocket 实时识别
POST
音频质量检测
GET
语音识别历史
计费规则
常见问题
工作台
立即登录

SenseASR 语音识别服务

基于 HTTP 协议的语音识别服务。

核心能力

  • 多模型:4 种模型覆盖从极速到深度理解的场景
  • 多语言:支持中、英、日及多种语言
  • 丰富功能:流式返回、说话人分离、情感分析、字级时间戳、翻译、ITN

模型对比

模型定位特色适用场景
sense-asr-lite极速版毫秒级响应、30+ 语言、热词增强低成本批量转写
sense-asr标准版功能全面、性价比高通用转写、视频字幕
sense-asr-pro专业版高精度、复杂环境优化会议记录、访谈、司法庭审
sense-asr-deepthink深度版智能纠错、方言/术语增强语音输入法

功能支持矩阵

能力sense-asr-litesense-asrsense-asr-prosense-asr-deepthink
基础识别✅✅✅✅
流式返回❌✅✅✅
说话人分离❌✅✅❌
情感分析❌✅✅❌
字级时间戳❌✅✅❌
句级时间戳❌✅✅❌
翻译❌✅✅✅
热词增强✅❌❌❌
ITN(逆文本规范化)✅✅✅❌
智能编辑收敛❌❌❌✅
多语言支持✅✅✅✅

流式返回 只支持音频内容的输出,不支持结构化信息返回

性能优化建议

  1. 按需开启功能:仅开启需要的功能,避免额外计算开销
  2. 音频预处理:建议 16kHz 采样率、单声道、减少背景噪音
  3. 文件控制:单文件 ≤10MB,超长音频建议切片处理

SenseASR API 参考

接口信息

  • 接口地址: https://api.senseaudio.cn/v1/audio/transcriptions
  • 协议类型: POST
  • Content-Type: multipart/form-data
  • 鉴权方式: Bearer Token

请求参数

必填参数

参数类型说明
filefile音频文件(wav/mp3/ogg/flac/aac/m4a/mp4 等),≤10MB
modelstringsense-asr-lite / sense-asr / sense-asr-pro / sense-asr-deepthink

可选参数

参数类型默认值说明
languagestring-语言代码(ISO-639-3),如 zh/en/ja, 不设置会自动检测
response_formatstringjsonjson / text / verbose_json
streambooleanfalse流式返回(lite 不支持)
enable_itnbooleantrue逆文本规范化(deepthink 不支持)
enable_punctuationbooleanfalse自动标点(deepthink 不支持,仅 asr/pro)
enable_speaker_diarizationbooleanfalse说话人分离(仅 asr/pro)
max_speakersinteger-最大说话人数 1-20(配合说话人分离,仅asr-pro支持)
enable_sentimentbooleanfalse情感分析(仅 asr/pro)
timestamp_granularities[]array-word=字级 / segment=句级(仅 asr/pro)
target_languagestring-翻译目标语言代码(lite 不支持)
hotwordsstring-热词增强,逗号分隔(仅 lite)
recognize_modestringautoauto/record_only(仅 deepthink 流式模式)

语言支持

参数说明

audio/transcriptions 接口中有两个与语言相关的参数:

参数作用说明
language指定音频文件内容的语言,增强识别效果可选,留空则自动检测
target_language将音频中识别的内容翻译成另外一种语言可选,留空则不翻译,仅返回识别的原文

各模型参数支持情况

不同模型支持的参数不同:

模型languagetarget_language
sense-asr-lite✅❌
sense-asr✅✅
sense-asr-pro✅✅
sense-asr-deepthink❌✅

重要 sense-asr-deepthink 不支持 language 参数,仅支持 target_language 用于翻译输出

支持的语种详情

1. sense-asr-lite

language 支持语种:

代码语言代码语言代码语言
zh中文en英文yue粤语
ja日文ko韩文vi越南语
id印尼语th泰语ms马来语
tl/fil菲律宾语ar阿拉伯语hi印地语
bg保加利亚语hr克罗地亚语cs捷克语
da丹麦语nl荷兰语et爱沙尼亚语
fi芬兰语el希腊语hu匈牙利语
ga爱尔兰语lv拉脱维亚语lt立陶宛语
mt马耳他语pl波兰语pt葡萄牙语
ro罗马尼亚语sk斯洛伐克语sl斯洛文尼亚语
sv瑞典语

2. sense-asr / sense-asr-pro

language 支持语种:

代码语言代码语言代码语言
ar阿拉伯语yue粤语zh中文
nl荷兰语en英文fr法语
de德语id印尼语it意大利语
ja日文ko韩文ms马来语
pt葡萄牙语ru俄语es西班牙语
th泰语tr土耳其语ur乌尔都语
vi越南语

target_language 支持语种:

与 language 相同(见上表)


3. sense-asr-deepthink

target_language 支持语种:

代码语言代码语言代码语言
ar阿拉伯语yue粤语zh中文
nl荷兰语en英文fr法语
de德语id印尼语it意大利语
ja日文ko韩文ms马来语
pt葡萄牙语ru俄语es西班牙语
th泰语tr土耳其语ur乌尔都语
vi越南语

[!WARNING] sense-asr-deepthink 不支持 language 参数,仅支持 target_language 用于翻译输出


响应格式

JSON(默认)

json
复制
{ "text": "识别出的文本内容" }

Text

纯文本,Content-Type: text/plain

text
复制
识别出的文本内容

Verbose JSON

json
复制
{ "text": "道可道非常道", "duration": 2.1, "audio_info": { "duration": 5230, "format": "wav" }, "segments": [ { "id": 0, "start": 0.0, "end": 2.0, "text": "道可道非常道", "speaker": "speaker_0", "sentiment": "positive", "translation": "Translated" } ], "words": [ { "word": "道", "start": 0.27, "end": 0.51 }, { "word": "可", "start": 0.57, "end": 0.81 }, { "word": "道", "start": 0.83, "end": 1.07 }, { "word": "非", "start": 1.21, "end": 1.45 }, { "word": "常", "start": 1.63, "end": 1.87 }, { "word": "道", "start": 1.87, "end": 2.0 } ] }

字段说明:

  • speaker: 需开启 enable_speaker_diarization
  • sentiment: 需开启 enable_sentiment
  • translation: 需设置 target_language
  • words: 需设置 timestamp_granularities[]=word
  • segment: 需设置 timestamp_granularities[]=segment

流式响应(SSE)

Content-Type: text/event-stream

plaintext
复制
data: {"delta": {"text": "增量文本"}, "finish_reason": null} data: {"delta": {"text": "。"}, "finish_reason": "stop", "audio_info": {...}} data: [DONE]
字段说明
delta.text本次返回的增量文本
finish_reasonnull(进行中) / stop(完成) / error(错误)

错误处理

错误响应格式

json
复制
{ "code": "invalid", "message": "file is required" }

错误码速查

HTTPcode说明
400invalid参数错误
429rate_limit_error请求频率过高
500internal_error服务端错误

各模型调用示例


1. sense-asr-lite

轻量级模型,适合简单快速的语音识别场景。

特性

  • ✅ 热词增强 (hotwords)
  • ❌ 不支持流式
  • ❌ 不支持翻译
  • ❌ 不支持说话人分离/情感分析/字级时间戳

调用示例

基础调用

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@audio.mp3" \ -F model="sense-asr-lite"

返回示例:(JSON)

json
复制
{ "text": "今天天气不错适合出去走走" }

指定语言 + 纯文本返回

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@audio.wav" \ -F model="sense-asr-lite" \ -F language="zh" \ -F response_format="text"

返回示例:(Text)

plaintext
复制
今天天气不错适合出去走走

使用热词增强

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@meeting.wav" \ -F model="sense-asr-lite" \ -F language="zh" \ -F response_format="json" \ -F hotwords="张三,李四,项目Alpha,季度复盘"

返回示例:

json
复制
{ "text": "张三和李四负责项目Alpha的季度复盘工作" }

详细 JSON 格式

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@audio.wav" \ -F model="sense-asr-lite" \ -F response_format="verbose_json"

返回示例:(Verbose JSON)

json
复制
{ "duration": 14640, "segments": null, "words": null, "text": "道可道非常道名可名非常名无名天地之始有名万物之母故常无欲以观其妙常有欲以观其皎" }

2. sense-asr

标准模型,支持大多数高级功能。

特性

  • ✅ 流式返回
  • ✅ 翻译
  • ✅ 说话人分离
  • ✅ 情感分析
  • ✅ 字级/句级时间戳

调用示例

基础调用

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@audio.mp3" \ -F model="sense-asr"

返回示例:

json
复制
{ "text": "欢迎使用我们的语音识别服务,希望能为您提供帮助。" }

流式调用

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@audio.wav" \ -F model="sense-asr" \ -F stream="true" \ --no-buffer

返回示例:(SSE)

plaintext
复制
data: {"type":"transcript.text.delta","delta":"今天"} data: {"type":"transcript.text.delta","delta":"天气"} data: {"type":"transcript.text.delta","delta":"不错"} data: {"type":"transcript.text.delta","delta":","} data: {"type":"transcript.text.delta","delta":"适合"} data: {"type":"transcript.text.delta","delta":"出去"} data: {"type":"transcript.text.delta","delta":"走"} data: {"type":"transcript.text.delta","delta":"走"} data: {"type":"transcript.text.delta","delta":"。"} data: {"type":"transcript.text.done","text":"今天天气不错,适合出去走走。"} data: [DONE]

说话人分离 + 情感分析

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@interview.wav" \ -F model="sense-asr" \ -F response_format="verbose_json" \ -F enable_speaker_diarization="true" \ -F max_speakers="2" \ -F timestamp_granularities="word" \ -F enable_sentiment="true"

返回示例:

json
复制
{ "task": "transcribe", "duration": 4.153, "segments": [ { "id": 0, "start": 0.93, "end": 3.37, "text": "今天天气不错,适合出去走走。", "speaker": "speaker_0", "sentiment": "Happy" } ], "words": [ { "word": "今", "start": 0.93, "end": 1.09 }, { "word": "天", "start": 1.09, "end": 1.25 }, { "word": "天", "start": 1.25, "end": 1.37 }, { "word": "气", "start": 1.37, "end": 1.57 }, { "word": "不", "start": 1.57, "end": 1.65 }, { "word": "错", "start": 1.65, "end": 1.89 }, { "word": "适", "start": 1.89, "end": 2.13 }, { "word": "合", "start": 2.71, "end": 2.87 }, { "word": "出", "start": 2.87, "end": 2.93 }, { "word": "去", "start": 2.93, "end": 3.11 }, { "word": "走", "start": 3.11, "end": 3.21 }, { "word": "走", "start": 3.21, "end": 3.37 } ], "text": "今天天气不错,适合出去走走。", "audio_info": { "duration": 4153, "format": "audio" } }

翻译功能

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@chinese.wav" \ -F model="sense-asr" \ -F response_format="verbose_json" \ -F target_language="en"

返回示例:

json
复制
{ "task": "transcribe", "duration": 4.153, "segments": null, "words": null, "text": "The weather is nice today, suitable for going out for a walk.", "audio_info": { "duration": 4153, "format": "audio" } }

3. sense-asr-pro

专业版模型,识别精度更高,适合对质量要求较高的场景。

特性

  • ✅ 流式返回
  • ✅ 翻译
  • ✅ 说话人分离
  • ✅ 情感分析
  • ✅ 字级/句级时间戳
  • ⭐ 更高的识别精度

调用示例

基础调用

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@audio.mp3" \ -F model="sense-asr-pro"

返回示例:

json
复制
{ "text": "第三季度的销售额达到了预期目标的115%,超额完成任务。" }

完整功能调用(说话人分离 + 字级时间戳 + 情感分析 + 翻译)

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@meeting.wav" \ -F model="sense-asr-pro" \ -F response_format="verbose_json" \ -F enable_speaker_diarization="true" \ -F max_speakers="4" \ -F enable_sentiment="true" \ -F "timestamp_granularities[]=word" \ -F "timestamp_granularities[]=segment" \ -F target_language="en"

返回示例:

json
复制
{ "task": "transcribe", "duration": 4.153, "segments": [ { "id": 0, "start": 0.95, "end": 3.37, "text": "今天天气不错,适合出去走走。", "speaker": "speaker_0", "sentiment": "Happy", "translation": "Today's weather is nice, suitable for going out for a walk." } ], "words": [ { "word": "今", "start": 0.93, "end": 1.09 }, { "word": "天", "start": 1.09, "end": 1.25 }, { "word": "天", "start": 1.25, "end": 1.37 }, { "word": "气", "start": 1.37, "end": 1.57 }, { "word": "不", "start": 1.57, "end": 1.65 }, { "word": "错", "start": 1.65, "end": 1.89 }, { "word": "适", "start": 1.89, "end": 2.13 }, { "word": "合", "start": 2.71, "end": 2.87 }, { "word": "出", "start": 2.87, "end": 2.93 }, { "word": "去", "start": 2.93, "end": 3.11 }, { "word": "走", "start": 3.11, "end": 3.21 }, { "word": "走", "start": 3.21, "end": 3.37 } ], "text": "Today's weather is nice, suitable for going out for a walk.", "audio_info": { "duration": 4153, "format": "audio" } }

4. sense-asr-deepthink

语音转写模型,整理口语化的语音输入。

特性

  • ✅ 流式返回
  • ✅ 翻译
  • ✅ recognize_mode 参数(仅流式)
  • ❌ enable_itn(静默忽略)
  • ❌ enable_punctuation(静默忽略)
  • ❌ 不支持说话人分离/情感分析/字级时间戳
  • ⭐ 最高识别精度,适合复杂场景

调用示例

基础调用

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@complex_audio.mp3" \ -F model="sense-asr-deepthink"

返回示例:

json
复制
{ "text": "量子计算利用量子力学原理如叠加态和纠缠态来处理信息比传统计算机在某些特定问题上具有指数级的速度优势" }

翻译

bash
复制
curl https://api.senseaudio.cn/v1/audio/transcriptions \ -H "Authorization: Bearer $API_KEY" \ -F file="@complex_audio.mp3" \ -F model="sense-asr-deepthink" \ -F target_language="en"

返回示例:

json
复制
{ "text": "The weather is nice today, suitable for going out for a walk." }