1.概述

Gemini API 可以使用原生文字转语音 (TTS) 生成功能将文本输入转换为单人或多人音频。文字转语音 (TTS) 生成是可控的,这意味着您可以使用自然语言来构建互动,并引导音频的风格、口音、节奏和音调。

模型列表:

  • gemini-2.5-flash-preview-tts
  • gemini-2.5-pro-preview-tts

2.请求说明

  • 请求方法: POST
  • 请求地址
  https://gateway.theturbo.ai/v1/audio/speech
  

3.请求参数

3.1 Head参数

参数名称 类型 必填 说明 示例值
Content-Type string 设置请求头类型,必须为application/json application/json
Authorization string 身份验证所需的 API_KEY,格式Bearer $YOUR_API_KEY Bearer $YOUR_API_KEY

3.2 Body 参数 (application/json)

参数名称 类型 必填 说明 示例(默认值)
model string 要使用的模型 ID。详见概述列出的可用版本,如 gemini-2.5-flash-preview-tts gemini-2.5-flash-preview-tts
input string 用于生成音频的文本,最大长度为 3.2万 个字符。 hello, what's your name?
voice string 用于生成音频的语音类型。支持:Zephyr Puck Charon Kore Fenrir Leda Orus Aoede Callirrhoe官网详细列表 Kore
response_format string 音频的输出格式。目前只支持:pcm pcm

4.请求示例

  POST /v1/audio/speech
Content-Type: application/json
Authorization: Bearer $YOUR_API_KEY

{
	"model": "gemini-2.5-flash-preview-tts",
	"input": "hello, what's your name?",
	"voice": "Kore"
}
  

5.响应示例

  HTTP/1.1 200 OK
Content-Type: audio/L16;codec=pcm;rate=24000

音频pcm文件