SenseAudio 开放平台
SenseAudio 开放平台面向语音、音乐、图片、视频等多模态内容生产场景,提供可直接接入业务系统的 API 与平台能力。
核心能力
文本转语音 (Text-to-Speech)
- 富有情感的 AI 语音:支持多情绪、多风格、多场景表达,适用于助手、教育、播客、有声书、影视配音等场景。
- 低延迟与流式输出:支持同步与流式返回,适配实时交互与长文本分段生成。
- 精细参数控制:支持更换音色;更改语速、音量、音调;支持多音字纠正、公式朗读等能力。
- 文档入口:文本转语音介绍 / 文本转语音 API
语音识别 (Automatic Speech Recognition)
- 文件转写与实时录音:支持音频上传、录音识别、结果校对与多格式导出。
- 结构化理解:支持时间轴、发言人区分、段落化输出等能力。
- 文档入口:语音识别介绍 / 语音识别 API
自定义音色能力
- 音色克隆:仅需少量参考音频即可快速复刻个性化音色。
- 文生音色:通过自然语言描述生成新的音色,再用于语音合成。
- 统一调用方式:生成成功后均可通过
voice_id 在 TTS 接口中调用。
- 文档入口:音色克隆介绍 / 文生音色介绍 / 可用音色查询
音乐生成
- 歌词生成与歌曲生成:支持基于提示词生成歌词,并进一步生成完整歌曲。
- 文档入口:歌词生成 / 歌曲生成
图片生成
- 同步与异步调用:支持常规尺寸与更高分辨率的图片生成任务。
- 文档入口:异步图片生成 / 同步图片生成
视频生成
- 文生视频与图生视频:支持基于文本或首帧图像创建视频生成任务。
- 文档入口:视频生成任务 / 任务状态查询
快速接入路径
- 前往 密钥管理 创建 API Key。
- 在 模型列表 中确认要调用的
model。
- 在 快速接入指南 中复制可直接运行的示例代码。
- 如需指定音色,请在 API 音色服务说明 中获取
voice_id。
关键命名说明
model:模型名称,表示您要调用的能力版本,例如 senseaudio-tts-1.5-260319。
voice_id:音色标识,用于在 TTS 请求中指定系统音色、克隆音色或文生音色。
file_id:上传文件后的唯一标识,常用于音色克隆、语音识别等需要文件输入的接口。
task_id / id:异步任务标识,用于图片、音乐、视频等异步任务的状态查询。
开发者资源
- 快速接入指南:5 分钟完成首个请求。
- 常见问题:查看高频问题与处理建议。
- 模型列表:查看全部可调用模型与计费信息。
联系我们
如需技术支持或商务咨询,请通过以下方式联系我们: