SenseAudio 开放平台

SenseAudio 开放平台面向语音、音乐、图片、视频等多模态内容生产场景，提供可直接接入业务系统的 API 与平台能力。

核心能力

文本转语音 (Text-to-Speech)

富有情感的 AI 语音：支持多情绪、多风格、多场景表达，适用于助手、教育、播客、有声书、影视配音等场景。
低延迟与流式输出：支持同步与流式返回，适配实时交互与长文本分段生成。
精细参数控制：支持更换音色；更改语速、音量、音调；支持多音字纠正、公式朗读等能力。
文档入口：文本转语音介绍 / 文本转语音 API

语音识别 (Automatic Speech Recognition)

文件转写与实时录音：支持音频上传、录音识别、结果校对与多格式导出。
结构化理解：支持时间轴、发言人区分、段落化输出等能力。
文档入口：语音识别介绍 / 语音识别 API

自定义音色能力

音色克隆：仅需少量参考音频即可快速复刻个性化音色。
文生音色：通过自然语言描述生成新的音色，再用于语音合成。
统一调用方式：生成成功后均可通过 voice_id 在 TTS 接口中调用。
文档入口：音色克隆介绍 / 文生音色介绍 / 可用音色查询

音乐生成

歌词生成与歌曲生成：支持基于提示词生成歌词，并进一步生成完整歌曲。
文档入口：歌词生成 / 歌曲生成

图片生成

同步与异步调用：支持常规尺寸与更高分辨率的图片生成任务。
文档入口：异步图片生成 / 同步图片生成

视频生成

文生视频与图生视频：支持基于文本或首帧图像创建视频生成任务。
文档入口：视频生成任务 / 任务状态查询

快速接入路径

前往 密钥管理 创建 API Key。
在 模型列表 中确认要调用的 model。
在 快速接入指南 中复制可直接运行的示例代码。
如需指定音色，请在 API 音色服务说明 中获取 voice_id。

关键命名说明

model：模型名称，表示您要调用的能力版本，例如 senseaudio-tts-1.5-260319。
voice_id：音色标识，用于在 TTS 请求中指定系统音色、克隆音色或文生音色。
file_id：上传文件后的唯一标识，常用于音色克隆、语音识别等需要文件输入的接口。
task_id / id：异步任务标识，用于图片、音乐、视频等异步任务的状态查询。

开发者资源

快速接入指南：5 分钟完成首个请求。
常见问题：查看高频问题与处理建议。
模型列表：查看全部可调用模型与计费信息。

联系我们

如需技术支持或商务咨询，请通过以下方式联系我们：

邮箱：senseaudio.support@sensetime.com