星梦语音转文字 (Whisper) 免费API调用文档
欢迎使用星梦平台提供的高性能语音转文字 (Whisper) 接口。本接口完全兼容 OpenAI 官方标准格式,支持多种格式音频识别,极速响应 基于OpenAI Whisper
基础信息
- 接口 Base URL:
https://api.xmc.tw/whisper/v1 - 请求方式:
POST(上传音频需使用multipart/form-data) - 鉴权方式:Bearer Token (API Key 请使用
stardream) - 文件限制:音频文件大小限制为 5MB 以内。
请求参数
调用 /audio/transcriptions 接口时,支持以下核心参数:
| 参数名 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
file | File | 是 | 无 | 需要转录的音频文件对象。支持的格式包括:mp3, mp4, mpeg, mpga, m4a, wav, webm。 |
model | String | 是 | 无 | 使用的模型。当前服务器专供极速版,必须填为 tiny。 |
language | String | 否 | 自动检测 | 音频的语言代码(ISO-639-1 标准)。例如:填 zh 强制识别为中文,可大幅提升识别速度和准确率。 |
response_format | String | 否 | json | 返回数据的格式。 - 填 json:返回结构化数据。- 填 text:直接返回纯文本结果。- 亦支持 srt, vtt 格式用于直接生成字幕。 |
调用示例
1. Python SDK 调用 (推荐)
由于接口完全兼容 OpenAI 标准,您可以直接使用官方的 openai 库进行调用。请先安装依赖:pip install openai。
请求代码:
python
from openai import OpenAI
# 初始化客户端,指向星梦 API 地址
client = OpenAI(
api_key="stardream",
base_url="https://api.xmc.tw/whisper/v1",
timeout=300.0 # 设置合理的超时时间
)
# 读取本地音频文件 (请确保文件小于 5MB)
with open("你需要转录的音频.mp3", "rb") as audio_file:
print("正在上传并转录音频,请稍候...")
# 发起转录请求
transcript = client.audio.transcriptions.create(
model="tiny", # 固定为 tiny 模型
file=audio_file, # 传入音频文件
language="zh", # 建议指定语言以提高准确率
response_format="text" # 直接获取纯文本结果
)
print("\n 转录结果:")
print(transcript)2. cURL 命令行调用
如果您需要在脚本或其他语言中调用,可以使用标准的 HTTP 请求:
请求代码:
bash
curl [https://api.xmc.tw/whisper/v1/audio/transcriptions](https://api.xmc.tw/whisper/v1/audio/transcriptions) \
-H "Authorization: Bearer stardream" \
-H "Content-Type: multipart/form-data" \
-F file="@你需要转录的音频.mp3" \
-F model="tiny" \
-F language="zh" \
-F response_format="text"错误排查
- 如果出现 413 Request Entity Too Large 则表明该请求过大,此免费API的设计初衷是为了让个人使用的语音转文字免费使用(通过语音在社交软件对话),而不是对大音频进行转录,最大单音频大小限制为5MB
- 如果出现503 too many requests则证明你调用的速度太快了或者当前使用人数过多,请稍后重试