Google Gemini TTS

1.概述

Gemini API 可以使用原生文字转语音 (TTS) 生成功能将文本输入转换为单人或多人音频。文字转语音 (TTS) 生成是可控的，这意味着您可以使用自然语言来构建互动，并引导音频的风格、口音、节奏和音调。

目前gemini的tts模型仍处于preview阶段。

模型列表：

gemini-2.5-flash-preview-tts
gemini-2.5-pro-preview-tts

2.请求说明

请求方法: POST
请求地址

  https://gateway.theturbo.ai/v1/audio/speech

3.请求参数

3.1 Head参数

参数名称	类型	必填	说明	示例值
`Content-Type`	string	是	设置请求头类型，必须为`application/json`	`application/json`
`Authorization`	string	是	身份验证所需的 API_KEY，格式`Bearer $YOUR_API_KEY`	`Bearer $YOUR_API_KEY`

3.2 Body 参数 (application/json)

参数名称	类型	必填	说明	示例（默认值）
model	string	是	要使用的模型 ID。详见概述列出的可用版本，如 `gemini-2.5-flash-preview-tts`。	`gemini-2.5-flash-preview-tts`
input	string	是	用于生成音频的文本，最大长度为 `3.2万` 个字符。	`hello, what's your name?`
voice	string	是	用于生成音频的语音类型。支持：`Zephyr` `Puck` `Charon` `Kore` `Fenrir` `Leda` `Orus` `Aoede` `Callirrhoe`等官网详细列表	`Kore`
response_format	string	否	音频的输出格式。目前只支持：`pcm`。	`pcm`

4.请求示例

  POST /v1/audio/speech
Content-Type: application/json
Authorization: Bearer $YOUR_API_KEY

{
	"model": "gemini-2.5-flash-preview-tts",
	"input": "hello, what's your name?",
	"voice": "Kore"
}

5.响应示例

  HTTP/1.1 200 OK
Content-Type: audio/L16;codec=pcm;rate=24000

音频pcm文件

OpenAI（文字转音频）

创建视频生成任务

Google Gemini TTS

1.概述 link

模型列表： link

2.请求说明 link

3.请求参数 link

3.1 Head参数 link

3.2 Body 参数 (application/json) link

4.请求示例 link

5.响应示例 link

1.概述

模型列表：

2.请求说明

3.请求参数

3.1 Head参数

3.2 Body 参数 (application/json)

4.请求示例

5.响应示例