logo
平台介绍
快速接入
密钥管理
模型列表
计费规则
音色列表
文本转语音
文本转语音介绍
POST
HTTP API 非流式
SSE
HTTP API 流式
WSS
WebSocket API
音色克隆
文生音色
语音识别
多模态理解模型
音乐生成
图片生成
视频生成
语音Agent
自定义Agent
常见问题
工作台
立即登录

文本转语音 (Text-to-Speech)

SenseAudio 文本转语音(TTS)服务支持70+官方精品音色及自定义音色的精细化控制及流式输出,适用于各类智能交互与内容生产场景。

核心特性

强大、富有情感的语音合成

基于深度学习技术,提供接近真人的语音合成体验:

  • 情感丰富:支持开心、悲伤、生气、撒娇等 10+ 种情感表达。
  • 风格多样:覆盖客服、广告、播客、有声书、新闻资讯等专业场景。
  • 多音字控制:支持自定义中文多音字的读音。(仅限senseaudio-tts-1.5)
  • 公式朗读:支持口语化朗读公式(需以 LaTeX 格式输入公式)。

模型版本说明

SenseAudio 提供多版本 TTS 模型。

  • senseaudio-tts-1.5-260319:情绪表现力更强,读音准确率更高,支持自定义多音字读音。
  • senseaudio-tts-1.0:情绪更稳定,音质更纯净。

毫秒级流式响应

专为实时交互设计的高性能架构:

  • 超低延迟:首包延迟 < 500ms,满足实时对话需求。
  • 流式输出:支持 Server-Sent Events (SSE),边合成边播放。

高并发支撑

  • 高并发:万卡集群支撑,轻松应对亿级调用。

精细化语音控制

提供丰富的参数调节,满足个性化需求:

参数说明范围步进值典型应用
speed语速调节[0.5, 2.0]0.010.8 (抒情) / 1.5 (快速)
vol音量调节[0.01, 10.0]0.01环境适配 / 重点强调
pitch声调调节[-12, 12]1角色变声 / 情绪微调

音频规格

支持多种主流音频格式与采样率,适配不同终端设备:

  • 格式:mp3 (推荐), wav, pcm, flac
  • 采样率: 支持 44100Hz(推荐)、8000Hz、16000Hz、22050Hz、24000Hz、32000Hz

接入建议

  • 首次接入:建议先阅读 快速接入指南,使用可直接生成 output.mp3 的示例快速完成首个请求。
  • 同步合成:适合标准文本转语音场景,参考 文本转语音 API。
  • 流式合成:适合实时对话与边生成边播放场景,参考 流式语音合成 API。

相关资源

  • API 参考文档:查看完整的接口定义与参数说明。
  • 系统音色列表:试听并选择适合您场景的系统音色。
  • API 音色服务说明:查看当前账号下可直接调用的全部音色 ID。
  • 快速接入指南:5 分钟完成快速上手。