logo
平台介绍
快速接入
密钥管理
模型列表
计费规则
音色列表
文本转语音
音色克隆
文生音色
语音识别
多模态理解模型
音乐生成
图片生成
视频生成
语音Agent
自定义Agent
常见问题
工作台
立即登录

SenseAudio 开放平台

SenseAudio 开放平台面向语音、音乐、图片、视频等多模态内容生产场景,提供可直接接入业务系统的 API 与平台能力。

核心能力

文本转语音 (Text-to-Speech)

  • 富有情感的 AI 语音:支持多情绪、多风格、多场景表达,适用于助手、教育、播客、有声书、影视配音等场景。
  • 低延迟与流式输出:支持同步与流式返回,适配实时交互与长文本分段生成。
  • 精细参数控制:支持更换音色;更改语速、音量、音调;支持多音字纠正、公式朗读等能力。
  • 文档入口:文本转语音介绍 / 文本转语音 API

语音识别 (Automatic Speech Recognition)

  • 文件转写与实时录音:支持音频上传、录音识别、结果校对与多格式导出。
  • 结构化理解:支持时间轴、发言人区分、段落化输出等能力。
  • 文档入口:语音识别介绍 / 语音识别 API

自定义音色能力

  • 音色克隆:仅需少量参考音频即可快速复刻个性化音色。
  • 文生音色:通过自然语言描述生成新的音色,再用于语音合成。
  • 统一调用方式:生成成功后均可通过 voice_id 在 TTS 接口中调用。
  • 文档入口:音色克隆介绍 / 文生音色介绍 / 可用音色查询

音乐生成

  • 歌词生成与歌曲生成:支持基于提示词生成歌词,并进一步生成完整歌曲。
  • 文档入口:歌词生成 / 歌曲生成

图片生成

  • 同步与异步调用:支持常规尺寸与更高分辨率的图片生成任务。
  • 文档入口:异步图片生成 / 同步图片生成

视频生成

  • 文生视频与图生视频:支持基于文本或首帧图像创建视频生成任务。
  • 文档入口:视频生成任务 / 任务状态查询

快速接入路径

  1. 前往 密钥管理 创建 API Key。
  2. 在 模型列表 中确认要调用的 model。
  3. 在 快速接入指南 中复制可直接运行的示例代码。
  4. 如需指定音色,请在 API 音色服务说明 中获取 voice_id。

关键命名说明

  • model:模型名称,表示您要调用的能力版本,例如 senseaudio-tts-1.5-260319。
  • voice_id:音色标识,用于在 TTS 请求中指定系统音色、克隆音色或文生音色。
  • file_id:上传文件后的唯一标识,常用于音色克隆、语音识别等需要文件输入的接口。
  • task_id / id:异步任务标识,用于图片、音乐、视频等异步任务的状态查询。

开发者资源

  • 快速接入指南:5 分钟完成首个请求。
  • 常见问题:查看高频问题与处理建议。
  • 模型列表:查看全部可调用模型与计费信息。

联系我们

如需技术支持或商务咨询,请通过以下方式联系我们:

  • 邮箱:senseaudio.support@sensetime.com