← Back to Skills Marketplace
jianjun156

doubao-tts

by Jianjun · GitHub ↗ · v1.0.2 · MIT-0
cross-platform ✓ Security Clean
491
Downloads
1
Stars
3
Active Installs
3
Versions
Install in OpenClaw
/install doubao-tts
Description
使用豆包(火山引擎)语音合成大模型 API 将文本转换为语音音频文件。支持声音复刻音色(S_ 开头的音色ID)和官方预置音色。当用户要求"语音合成"、"文字转语音"、"TTS"、"朗读文本"、"生成语音"、"用我的声音读"、"豆包语音"、"声音复刻合成"等相关请求时,务必使用此 skill。即使用户只是说"帮我把...
README (SKILL.md)

豆包语音合成 Skill(Doubao TTS)

本 skill 通过火山引擎豆包语音合成大模型的单向流式 HTTP V3 接口,将文本合成为语音音频文件。

官方文档:豆包语音合成 API 文档

前置要求

用户需要提供以下环境变量(通过 export 设置或在脚本参数中传入):

  • DOUBAO_APP_ID:火山引擎控制台获取的 APP ID
  • DOUBAO_ACCESS_KEY:火山引擎控制台获取的 Access Token
  • DOUBAO_SPEAKER:音色 ID(可选,默认为 zh_female_xiaohe_uranus_bigtts
    • 声音复刻音色以 S_ 开头,可前往官方后台创建:音色复刻控制台
    • 官方预置音色详见下方音色对照表

如果用户没有设置 DOUBAO_APP_IDDOUBAO_ACCESS_KEY先提醒用户设置,并告知获取方式:登录火山引擎控制台 → 豆包语音 → 创建应用 → 获取 APP ID 和 Access Token。

如果用户未设置 DOUBAO_SPEAKER,默认使用 zh_female_xiaohe_uranus_bigtts(小何 2.0,通用中文女声)。

使用流程

1. 确认参数

向用户确认以下信息(有合理默认值的可以跳过确认):

参数 说明 默认值
待合成文本 要转语音的文字内容 (必填)
音色 ID(speaker) 音色标识符。声音复刻音色以 S_ 开头;根据上下文从下方音色表中选择合适音色 $DOUBAO_SPEAKERzh_female_xiaohe_uranus_bigtts
资源 ID(resource_id) 声音复刻用 seed-icl-1.0;官方 1.0 音色用 seed-tts-1.0;官方 2.0 音色用 seed-tts-2.0 seed-tts-2.0
音频格式(format) mp3 / ogg_opus / pcm mp3
采样率(sample_rate) 可选 8000/16000/22050/24000/32000/44100/48000 24000
情感(emotion) 情感类型,仅多情感音色支持。中文音色:happy / sad / angry / surprised / fear / hate / excited / coldness / neutral 等;英文音色:neutral / happy / angry / sad / excited / chat / warm 不设置
情绪强度(emotion_scale) 范围 1~5,值越大情感越明显(非线性),需配合 emotion 使用 4
输出文件名 生成的音频文件名 output.mp3

2. 执行合成

运行脚本:

# 基础用法(resource-id 自动推断)
python3 /path/to/doubao-tts/scripts/tts_synthesize.py \
  --text "要合成的文本" \
  --speaker "${DOUBAO_SPEAKER:-zh_female_xiaohe_uranus_bigtts}" \
  --format mp3 \
  --sample-rate 24000 \
  --output /mnt/user-data/outputs/output.mp3

# 带情感的合成(仅多情感音色支持)
python3 /path/to/doubao-tts/scripts/tts_synthesize.py \
  --text "要合成的文本" \
  --speaker "zh_female_shuangkuaisisi_emo_v2_mars_bigtts" \
  --emotion happy \
  --emotion-scale 4 \
  --output /mnt/user-data/outputs/output.mp3

环境变量 DOUBAO_APP_IDDOUBAO_ACCESS_KEY 必须已设置。也可以通过 --app-id--access-key 参数直接传入。

3. 输出结果

脚本会将合成的音频保存到指定路径。合成完成后,使用 present_files 工具将文件呈现给用户。

音色对照表

Agent 应根据上下文(用户要求的角色、场景、风格)从下表中选择最合适的音色 ID。

完整音色列表参见官方文档:音色列表

豆包语音合成 2.0 音色(推荐,resource_id 使用 seed-tts-2.0

场景 音色名称 voice_type(音色ID) 语种 适用角色/描述
通用场景 小何 2.0 ⭐默认 zh_female_xiaohe_uranus_bigtts 中文 通用女声,自然亲切
通用场景 Vivi 2.0 zh_female_vv_uranus_bigtts 中文/日文/印尼语/西班牙语 多语种女声,情感丰富
通用场景 云舟 2.0 zh_male_m191_uranus_bigtts 中文 通用男声
通用场景 小天 2.0 zh_male_taocheng_uranus_bigtts 中文 通用男声,年轻
通用场景 刘飞 2.0 zh_male_liufei_uranus_bigtts 中文 通用男声
通用场景 魅力苏菲 2.0 zh_male_sophie_uranus_bigtts 中文 通用男声
通用场景 清新女声 2.0 zh_female_qingxinnvsheng_uranus_bigtts 中文 清新淡雅女声
通用场景 甜美小源 2.0 zh_female_tianmeixiaoyuan_uranus_bigtts 中文 甜美女声
通用场景 甜美桃子 2.0 zh_female_tianmeitaozi_uranus_bigtts 中文 甜美女声
通用场景 爽快思思 2.0 zh_female_shuangkuaisisi_uranus_bigtts 中文 爽朗活泼女声
通用场景 邻家女孩 2.0 zh_female_linjianvhai_uranus_bigtts 中文 亲切邻家风格女声
通用场景 少年梓辛 2.0 zh_male_shaonianzixin_uranus_bigtts 中文 少年男声,青春感
通用场景 魅力女友 2.0 zh_female_meilinvyou_uranus_bigtts 中文 魅力成熟女声
通用场景 流畅女声 2.0 zh_female_liuchangnv_uranus_bigtts 中文 流畅自然女声,适合长文朗读
通用场景 儒雅逸辰 2.0 zh_male_ruyayichen_uranus_bigtts 中文 儒雅成熟男声
角色扮演 知性灿灿 2.0 zh_female_cancan_uranus_bigtts 中文 知性干练女声
角色扮演 撒娇学妹 2.0 zh_female_sajiaoxuemei_uranus_bigtts 中文 撒娇可爱女声
视频配音 猴哥 2.0 zh_male_sunwukong_uranus_bigtts 中文 孙悟空角色,豪迈
视频配音 佩奇猪 2.0 zh_female_peiqi_uranus_bigtts 中文 卡通儿童角色
视频配音 大壹 2.0 zh_male_dayi_uranus_bigtts 中文 视频配音男声
视频配音 黑猫侦探社咪仔 2.0 zh_female_mizai_uranus_bigtts 中文 可爱卡通女声
视频配音 鸡汤女 2.0 zh_female_jitangnv_uranus_bigtts 中文 温情励志女声
教育场景 Tina老师 2.0 zh_female_yingyujiaoxue_uranus_bigtts 中文/英式英语 教师/教育场景
客服场景 暖阳女声 2.0 zh_female_kefunvsheng_uranus_bigtts 中文 客服专用,温暖专业
有声阅读 儿童绘本 2.0 zh_female_xiaoxue_uranus_bigtts 中文 儿童故事、绘本朗读
多语种 Tim en_male_tim_uranus_bigtts 美式英语 英文男声
多语种 Dacey en_female_dacey_uranus_bigtts 美式英语 英文女声
多语种 Stokie en_female_stokie_uranus_bigtts 美式英语 英文女声

豆包语音合成 1.0 音色(resource_id 使用 seed-tts-1.0

通用场景

场景 音色名称 voice_type(音色ID) 语种 适用角色/描述
通用 灿灿/Shiny zh_female_cancan_mars_bigtts 中文/美式英语 活泼开朗女声
通用 Vivi zh_female_vv_mars_bigtts 中文 标准女声
通用 爽快思思/Skye zh_female_shuangkuaisisi_moon_bigtts 中文/美式英语 爽朗活泼女声
通用 温暖阿虎/Alvin zh_male_wennuanahu_moon_bigtts 中文/美式英语 温暖亲切男声
通用 少年梓辛/Brayan zh_male_shaonianzixin_moon_bigtts 中文/美式英语 青春少年男声
通用 清新女声 zh_female_qingxinnvsheng_mars_bigtts 中文 清新淡雅
通用 知性女声 zh_female_zhixingnvsheng_mars_bigtts 中文 知性成熟女声
通用 清爽男大 zh_male_qingshuangnanda_mars_bigtts 中文 清爽大学生男声
通用 邻家女孩 zh_female_linjianvhai_moon_bigtts 中文 亲切邻家风
通用 渊博小叔 zh_male_yuanboxiaoshu_moon_bigtts 中文 知识渊博叔叔感
通用 阳光青年 zh_male_yangguangqingnian_moon_bigtts 中文 积极阳光男声
通用 甜美小源 zh_female_tianmeixiaoyuan_moon_bigtts 中文 甜美女声
通用 甜美悦悦 zh_female_tianmeiyueyue_moon_bigtts 中文 甜美女声
通用 清澈梓梓 zh_female_qingchezizi_moon_bigtts 中文 清澈干净女声
通用 开朗姐姐 zh_female_kailangjiejie_moon_bigtts 中文 开朗大姐姐
通用 邻家男孩 zh_male_linjiananhai_moon_bigtts 中文 亲切邻家男声
通用 心灵鸡汤 zh_female_xinlingjitang_moon_bigtts 中文 温情励志女声
通用 快乐小东 zh_male_xudong_conversation_wvae_bigtts 中文 对话场景男声
通用 亲切女声 zh_female_qinqienvsheng_moon_bigtts 中文 亲切温和女声
教育 Tina老师 zh_female_yingyujiaoyu_mars_bigtts 中文/英式英语 教学场景

多情感音色(支持 emotion 参数)

音色名称 voice_type(音色ID) 支持的情感 适用场景
爽快思思(多情感) zh_female_shuangkuaisisi_emo_v2_mars_bigtts 开心/悲伤/生气/惊讶/激动/冷漠/中性 情感丰富的对话、故事
柔美女友(多情感) zh_female_roumeinvyou_emo_v2_mars_bigtts 开心/悲伤/生气/惊讶/恐惧/厌恶/激动/冷漠/中性 情感丰富女声
高冷御姐(多情感) zh_female_gaolengyujie_emo_v2_mars_bigtts 开心/悲伤/生气/惊讶/恐惧/厌恶/激动/冷漠/中性 御姐/高冷女性角色
冷酷哥哥(多情感) zh_male_lengkugege_emo_v2_mars_bigtts 生气/冷漠/恐惧/开心/厌恶/中性/悲伤/沮丧 冷酷/高冷男性角色
傲娇霸总(多情感) zh_male_aojiaobazong_emo_v2_mars_bigtts 中性/开心/愤怒/厌恶 霸道总裁、强势男性
儒雅男友(多情感) zh_male_ruyayichen_emo_v2_mars_bigtts 开心/悲伤/生气/恐惧/激动/冷漠/中性 温文尔雅男友
俊朗男友(多情感) zh_male_junlangnanyou_emo_v2_mars_bigtts 开心/悲伤/生气/惊讶/恐惧/中性 帅气男友
阳光青年(多情感) zh_male_yangguangqingnian_emo_v2_mars_bigtts 开心/悲伤/生气/恐惧/激动/冷漠/中性 阳光积极青年
优柔公子(多情感) zh_male_yourougongzi_emo_v2_mars_bigtts 开心/生气/恐惧/厌恶/激动/中性/沮丧 温柔优雅男性
北京小爷(多情感) zh_male_beijingxiaoye_emo_v2_mars_bigtts 生气/惊讶/恐惧/激动/冷漠/中性 北京腔调男声
广州德哥(多情感) zh_male_guangzhoudege_emo_mars_bigtts 生气/恐惧/中性 广州方言男声
京腔侃爷(多情感) zh_male_jingqiangkanye_emo_mars_bigtts 开心/生气/惊讶/厌恶/中性 京腔侃爷风格
甜心小美(多情感) zh_female_tianxinxiaomei_emo_v2_mars_bigtts 悲伤/恐惧/厌恶/中性 甜美女声
邻居阿姨(多情感) zh_female_linjuayi_emo_v2_mars_bigtts 中性/愤怒/冷漠/沮丧/惊讶 中年女性
深夜播客(多情感) zh_male_shenyeboke_emo_v2_mars_bigtts 惊讶/悲伤/中性/厌恶/开心/恐惧/激动/沮丧/冷漠/生气 深夜播客/电台
Candice en_female_candice_emo_v2_mars_bigtts 深情/愤怒/ASMR/对话/兴奋/愉悦/中性/温暖 英文女声
Serena en_female_skye_emo_v2_mars_bigtts 深情/愤怒/ASMR/对话/兴奋/愉悦/中性/悲伤/温暖 英文女声
Glen en_male_glen_emo_v2_mars_bigtts 深情/愤怒/ASMR/对话/兴奋/愉悦/中性/悲伤/温暖 英文男声
Sylus en_male_sylus_emo_v2_mars_bigtts 深情/愤怒/ASMR/权威/对话/兴奋/愉悦/中性/悲伤/温暖 英文男声
Corey en_male_corey_emo_v2_mars_bigtts 愤怒/ASMR/权威/对话/深情/兴奋/愉悦/中性/悲伤/温暖 英式英语男声
Nadia en_female_nadia_tips_emo_v2_mars_bigtts 深情/愤怒/ASMR/对话/兴奋/愉悦/中性/悲伤/温暖 英式英语女声

趣味口音

音色名称 voice_type(音色ID) 口音/语种 描述
湾湾小何 zh_female_wanwanxiaohe_moon_bigtts 台湾普通话 台湾腔女声
京腔侃爷/Harmony zh_male_jingqiangkanye_moon_bigtts 北京口音 北京腔侃爷
北京小爷 zh_male_beijingxiaoye_moon_bigtts 北京口音 北京腔男声
呆萌川妹 zh_female_daimengchuanmei_moon_bigtts 四川口音 川味女声
豫州子轩 zh_male_yuzhouzixuan_moon_bigtts 河南口音 河南腔男声
广西远舟 zh_male_guangxiyuanzhou_moon_bigtts 广西口音 广西腔男声
广州德哥 zh_male_guozhoudege_moon_bigtts 广东口音 广东腔男声
湾区大叔 zh_female_wanqudashu_moon_bigtts 广东口音 广东腔
浩宇小哥 zh_male_haoyuxiaoge_moon_bigtts 青岛口音 青岛腔男声
妹坨洁儿 zh_female_meituojieer_moon_bigtts 长沙口音 长沙腔女声
粤语小溏 zh_female_yueyunv_mars_bigtts 粤语 粤语女声

角色扮演

音色名称 voice_type(音色ID) 角色特征
奶气萌娃 zh_male_naiqimengwa_mars_bigtts 萌娃、儿童角色
婆婆 zh_female_popo_mars_bigtts 老年女性、祖母
高冷御姐 zh_female_gaolengyujie_moon_bigtts 高冷御姐风格
傲娇霸总 zh_male_aojiaobazong_moon_bigtts 霸道总裁、傲娇男
魅力女友 zh_female_meilinvyou_moon_bigtts 魅力女友
柔美女友 zh_female_sajiaonvyou_moon_bigtts 柔美撒娇女友
撒娇学妹 zh_female_yuanqinvyou_moon_bigtts 撒娇可爱学妹
东方浩然 zh_male_dongfanghaoran_moon_bigtts 正义男主角
深夜播客 zh_male_shenyeboke_moon_bigtts 深夜电台主播

IP 仿音

音色名称 voice_type(音色ID) 角色/原型
猪八戒 zh_male_zhubajie_mars_bigtts 西游记猪八戒
唐僧 zh_male_tangseng_mars_bigtts 西游记唐僧
鲁班七号 zh_male_lubanqihao_mars_bigtts 王者荣耀鲁班七号
春日部姐姐 zh_female_jiyejizi2_mars_bigtts 哆啦A梦角色
女雷神 zh_female_leidian_mars_bigtts 雷神角色
庄周 zh_male_zhuangzhou_mars_bigtts 王者荣耀庄周

Agent 音色选择指南

根据上下文智能选择音色:

使用场景 推荐音色 音色ID
默认/通用 小何 2.0 zh_female_xiaohe_uranus_bigtts
正式/新闻播报 知性女声 zh_female_zhixingnvsheng_mars_bigtts
儿童故事/绘本 儿童绘本 2.0 zh_female_xiaoxue_uranus_bigtts
英语内容 Dacey en_female_dacey_uranus_bigtts
深夜/电台/播客 深夜播客(多情感) zh_male_shenyeboke_emo_v2_mars_bigtts
有声书/长文朗读 流畅女声 2.0 zh_female_liuchangnv_uranus_bigtts
客服/助手 暖阳女声 2.0 zh_female_kefunvsheng_uranus_bigtts
教育/教学 Tina老师 2.0 zh_female_yingyujiaoxue_uranus_bigtts
台湾腔 湾湾小何 zh_female_wanwanxiaohe_moon_bigtts
北京腔 京腔侃爷 zh_male_jingqiangkanye_moon_bigtts
古风/武侠角色 东方浩然 zh_male_dongfanghaoran_moon_bigtts
霸道总裁 傲娇霸总 zh_male_aojiaobazong_moon_bigtts
可爱萌娃 奶气萌娃 zh_male_naiqimengwa_mars_bigtts
情感化对话 爽快思思(多情感) zh_female_shuangkuaisisi_emo_v2_mars_bigtts
用户自定义复刻声音 用户提供的 S_ 音色 S_xxxxxxxx(用户声音复刻ID)

重要注意事项

  • 声音复刻音色(S_ 开头)必须使用 seed-icl-1.0 作为 resource_id,不能用 seed-tts-1.0seed-tts-2.0
  • 2.0 音色(uranus 系列)必须使用 seed-tts-2.0,不支持旧版 V1 接口
  • 1.0 音色(mars/moon 系列)使用 seed-tts-1.0
  • 如果用户提供的文本非常长(超过 5000 字),建议分段合成后拼接
  • 脚本使用 requests.Session 实现连接复用,符合官方最佳实践
  • 流式接口返回的音频数据是 base64 编码的,脚本会自动解码拼接
  • 如果用户要求调整语速、音量、音调等,可传入对应参数

错误处理

  • 40402003:文本超长,需要分段
  • 40000001:参数错误,检查音色 ID 和 resource_id 是否匹配
  • 40300001:鉴权失败,检查 APP ID 和 Access Key
  • 出现 quota 相关错误:试用版用量已用完,需开通正式版
Usage Guidance
This skill is internally coherent for its stated Doubao/火山引擎 TTS purpose. Before installing: 1) Confirm you are comfortable providing DOUBAO_APP_ID and DOUBAO_ACCESS_KEY (these are sent in requests to https://openspeech.bytedance.com). Keep those keys secret and do not reuse unrelated cloud secrets. 2) Be aware that any text you send (and any voice-clone ID you use) is transmitted to Volcengine's service — avoid sending sensitive PII if you have privacy concerns. 3) The registry metadata in the package listing omitted the required env vars; rely on SKILL.md and the script which do require the keys. 4) Ensure the execution environment has Python 3 and the requests package installed, and that you trust the upstream provider. If you need higher assurance, audit network traffic or run the script in an isolated environment before enabling agent-level invocation.
Capability Analysis
Type: OpenClaw Skill Name: doubao-tts Version: 1.0.2 The skill is a legitimate implementation for converting text to speech using the Volcengine (ByteDance) Doubao TTS API. The Python script `scripts/tts_synthesize.py` correctly handles authentication via environment variables and communicates exclusively with the official API endpoint (openspeech.bytedance.com). No evidence of data exfiltration, unauthorized file access, or malicious prompt injection was found in the code or instructions.
Capability Assessment
Purpose & Capability
The skill name/description match the included script and SKILL.md: it calls Volcengine (Doubao) TTS to convert text to audio and supports cloned and preset voices. One minor inconsistency: the package registry metadata at the top of the report listed 'Required env vars: none', but the SKILL.md and scripts clearly require DOUBAO_APP_ID and DOUBAO_ACCESS_KEY (and optionally DOUBAO_SPEAKER). This is an administrative/metadata mismatch, not a functionality mismatch.
Instruction Scope
SKILL.md instructs the agent to collect text, optional voice parameters, require Doubao credentials, then run the included Python script which sends the text to the official streaming TTS API and writes an audio file to a user-specified path. The instructions do not request unrelated files, other credentials, or exfiltrate data to unexpected endpoints.
Install Mechanism
There is no automated install spec (instruction-only). The README suggests installing the well-known 'requests' pip package; the script itself checks for requests and exits with a clear error if missing. No downloads from untrusted URLs or archive extraction are present.
Credentials
The script requires DOUBAO_APP_ID and DOUBAO_ACCESS_KEY which are appropriate and proportionate for calling the Doubao/Volcengine TTS API; an optional DOUBAO_SPEAKER is reasonable. Note again the registry metadata omission of these environment variables — the runtime docs and script do expect them.
Persistence & Privilege
The skill is not always-enabled and is user-invocable by default. It does not request persistent system privileges, modify other skills, or alter system-wide agent settings. It only creates the specified output audio file.
How to Use
  1. Make sure OpenClaw is installed (local or Docker)
  2. Run the install command in chat: /install doubao-tts
  3. After installation, invoke the skill by name or use /doubao-tts
  4. Provide required inputs per the skill's parameter spec and get structured output
Version History
v1.0.2
fix: 在 SKILL.md frontmatter 中声明所需凭证以符合安全规范 在注册表元数据中新增 credentials 字段,明确声明调用豆包 TTS API 所需的必需凭证(DOUBAO_APP_ID、DOUBAO_ACCESS_KEY)和可选环境变量 (DOUBAO_SPEAKER),消除元数据与实际需求不一致的安全问题。
v1.0.1
- 新增 README.md:完整的安装说明、使用示例、音色推荐和官方文档链接,面向 OpenClaw/ClawHub 用户 - SKILL.md:新增官方文档链接、DOUBAO_SPEAKER 环境变量说明(含默认值 zh_female_xiaohe_uranus_bigtts)、完整音色对照表(100+ 音色按场景分类)、Agent 音色选择指南、emotion/emotion_scale 参数说明 - tts_synthesize.py:支持 DOUBAO_SPEAKER 环境变量,resource_id 根据音色 ID 自动推断,新增 --emotion 和 --emotion-scale 参数 - 删除旧版二进制打包文件 doubao-tts.skill
v1.0.0
- Initial release of doubao-tts skill. - Converts text to speech audio files using Doubao (Volcengine) TTS API. - Supports both voice cloning (with S_ prefix speaker IDs) and official preset voices. - Handles user requests such as "voice synthesis", "read this text", and similar prompts automatically. - Validates environment variables (APP ID and Access Key) and prompts setup instructions if missing. - Guides users through parameter selection and synthesizes audio, outputting the file to the specified location.
Metadata
Slug doubao-tts
Version 1.0.2
License MIT-0
All-time Installs 3
Active Installs 3
Total Versions 3
Frequently Asked Questions

What is doubao-tts?

使用豆包(火山引擎)语音合成大模型 API 将文本转换为语音音频文件。支持声音复刻音色(S_ 开头的音色ID)和官方预置音色。当用户要求"语音合成"、"文字转语音"、"TTS"、"朗读文本"、"生成语音"、"用我的声音读"、"豆包语音"、"声音复刻合成"等相关请求时,务必使用此 skill。即使用户只是说"帮我把... It is an AI Agent Skill for Claude Code / OpenClaw, with 491 downloads so far.

How do I install doubao-tts?

Run "/install doubao-tts" in the OpenClaw or Claude Code chat to install it in one step — no extra setup required.

Is doubao-tts free?

Yes, doubao-tts is completely free, licensed under MIT-0. You can download, install and use it at no cost.

Which platforms does doubao-tts support?

doubao-tts is cross-platform and runs anywhere OpenClaw / Claude Code is available (cross-platform).

Who created doubao-tts?

It is built and maintained by Jianjun (@jianjun156); the current version is v1.0.2.

💬 Comments