文本转语音 (Text-to-Speech)
SenseAudio 文本转语音(TTS)服务支持70+官方精品音色及自定义音色的精细化控制及流式输出,适用于各类智能交互与内容生产场景。
核心特性
强大、富有情感的语音合成
基于深度学习技术,提供接近真人的语音合成体验:
- 情感丰富:支持开心、悲伤、生气、撒娇等 10+ 种情感表达。
- 风格多样:覆盖客服、广告、播客、有声书、新闻资讯等专业场景。
- 多音字控制:支持自定义中文多音字的读音。(仅限senseaudio-tts-1.5)
- 公式朗读:支持口语化朗读公式(需以 LaTeX 格式输入公式)。
模型版本说明
SenseAudio 提供多版本 TTS 模型。
- senseaudio-tts-1.5-260319:情绪表现力更强,读音准确率更高,支持自定义多音字读音。
- senseaudio-tts-1.0:情绪更稳定,音质更纯净。
毫秒级流式响应
专为实时交互设计的高性能架构:
- 超低延迟:首包延迟 < 500ms,满足实时对话需求。
- 流式输出:支持 Server-Sent Events (SSE),边合成边播放。
高并发支撑
精细化语音控制
提供丰富的参数调节,满足个性化需求:
| 参数 | 说明 | 范围 | 步进值 | 典型应用 |
|---|
| speed | 语速调节 | [0.5, 2.0] | 0.01 | 0.8 (抒情) / 1.5 (快速) |
| vol | 音量调节 | [0.01, 10.0] | 0.01 | 环境适配 / 重点强调 |
| pitch | 声调调节 | [-12, 12] | 1 | 角色变声 / 情绪微调 |
音频规格
支持多种主流音频格式与采样率,适配不同终端设备:
- 格式:mp3 (推荐), wav, pcm, flac
- 采样率:
支持 44100Hz(推荐)、8000Hz、16000Hz、22050Hz、24000Hz、32000Hz
接入建议
- 首次接入:建议先阅读 快速接入指南,使用可直接生成
output.mp3 的示例快速完成首个请求。
- 同步合成:适合标准文本转语音场景,参考 文本转语音 API。
- 流式合成:适合实时对话与边生成边播放场景,参考 流式语音合成 API。
相关资源
- API 参考文档:查看完整的接口定义与参数说明。
- 系统音色列表:试听并选择适合您场景的系统音色。
- API 音色服务说明:查看当前账号下可直接调用的全部音色 ID。
- 快速接入指南:5 分钟完成快速上手。