On this page
article
Google Gemini TTS
1.概述
Gemini API 可以使用原生文字转语音 (TTS) 生成功能将文本输入转换为单人或多人音频。文字转语音 (TTS) 生成是可控的,这意味着您可以使用自然语言来构建互动,并引导音频的风格、口音、节奏和音调。
目前gemini的tts模型仍处于preview阶段。
模型列表:
gemini-2.5-flash-preview-ttsgemini-2.5-pro-preview-tts
2.请求说明
- 请求方法:
POST - 请求地址
https://gateway.theturbo.ai/v1/audio/speech
3.请求参数
3.1 Head参数
| 参数名称 | 类型 | 必填 | 说明 | 示例值 |
|---|---|---|---|---|
Content-Type |
string | 是 | 设置请求头类型,必须为application/json |
application/json |
Authorization |
string | 是 | 身份验证所需的 API_KEY,格式Bearer $YOUR_API_KEY |
Bearer $YOUR_API_KEY |
3.2 Body 参数 (application/json)
| 参数名称 | 类型 | 必填 | 说明 | 示例(默认值) |
|---|---|---|---|---|
| model | string | 是 | 要使用的模型 ID。详见概述列出的可用版本,如 gemini-2.5-flash-preview-tts。 |
gemini-2.5-flash-preview-tts |
| input | string | 是 | 用于生成音频的文本,最大长度为 3.2万 个字符。 |
hello, what's your name? |
| voice | string | 是 | 用于生成音频的语音类型。支持:Zephyr Puck Charon Kore Fenrir Leda Orus Aoede Callirrhoe等官网详细列表 |
Kore |
| response_format | string | 否 | 音频的输出格式。目前只支持:pcm。 |
pcm |
4.请求示例
POST /v1/audio/speech
Content-Type: application/json
Authorization: Bearer $YOUR_API_KEY
{
"model": "gemini-2.5-flash-preview-tts",
"input": "hello, what's your name?",
"voice": "Kore"
}
5.响应示例
HTTP/1.1 200 OK
Content-Type: audio/L16;codec=pcm;rate=24000
音频pcm文件