Skip to content

星梦语音转文字 (Whisper) 免费API调用文档

欢迎使用星梦平台提供的高性能语音转文字 (Whisper) 接口。本接口完全兼容 OpenAI 官方标准格式,支持多种格式音频识别,极速响应 基于OpenAI Whisper

基础信息

  • 接口 Base URLhttps://api.xmc.tw/whisper/v1
  • 请求方式POST (上传音频需使用 multipart/form-data)
  • 鉴权方式:Bearer Token (API Key 请使用 stardream)
  • 文件限制:音频文件大小限制为 5MB 以内。

请求参数

调用 /audio/transcriptions 接口时,支持以下核心参数:

参数名类型必填默认值说明
fileFile需要转录的音频文件对象。支持的格式包括:mp3, mp4, mpeg, mpga, m4a, wav, webm
modelString使用的模型。当前服务器专供极速版,必须填为 tiny
languageString自动检测音频的语言代码(ISO-639-1 标准)。例如:填 zh 强制识别为中文,可大幅提升识别速度和准确率。
response_formatStringjson返回数据的格式。
- 填 json:返回结构化数据。
- 填 text:直接返回纯文本结果。
- 亦支持 srt, vtt 格式用于直接生成字幕。

调用示例

1. Python SDK 调用 (推荐)

由于接口完全兼容 OpenAI 标准,您可以直接使用官方的 openai 库进行调用。请先安装依赖:pip install openai

请求代码:

python
from openai import OpenAI

# 初始化客户端,指向星梦 API 地址
client = OpenAI(
    api_key="stardream", 
    base_url="https://api.xmc.tw/whisper/v1",
    timeout=300.0  # 设置合理的超时时间
)

# 读取本地音频文件 (请确保文件小于 5MB)
with open("你需要转录的音频.mp3", "rb") as audio_file:
    print("正在上传并转录音频,请稍候...")

    # 发起转录请求
    transcript = client.audio.transcriptions.create(
        model="tiny",           # 固定为 tiny 模型
        file=audio_file,        # 传入音频文件
        language="zh",          # 建议指定语言以提高准确率
        response_format="text"  # 直接获取纯文本结果
    )

    print("\n 转录结果:")
    print(transcript)

2. cURL 命令行调用

如果您需要在脚本或其他语言中调用,可以使用标准的 HTTP 请求:

请求代码:

bash
curl [https://api.xmc.tw/whisper/v1/audio/transcriptions](https://api.xmc.tw/whisper/v1/audio/transcriptions) \
  -H "Authorization: Bearer stardream" \
  -H "Content-Type: multipart/form-data" \
  -F file="@你需要转录的音频.mp3" \
  -F model="tiny" \
  -F language="zh" \
  -F response_format="text"

错误排查

  • 如果出现 413 Request Entity Too Large 则表明该请求过大,此免费API的设计初衷是为了让个人使用的语音转文字免费使用(通过语音在社交软件对话),而不是对大音频进行转录,最大单音频大小限制为5MB
  • 如果出现503 too many requests则证明你调用的速度太快了或者当前使用人数过多,请稍后重试

Made with love and free for everyone!