功能描述

当用户想要**音频增强**、**提升音质**、**修复录音**、**降噪**、**语音修复**、**高保真音频**、**48kHz超分辨率**、**清理会议录音**、**音乐音质提升**、**批量处理音频**时自动触发。集成 **VoiceFixer**（通用语音修复）与 **AudioSR**（高保真音频超级...

使用说明 (SKILL.md)

\r \r

Audio Enhancement Skill\r

Name: audio-enhancement-engine
Author: wangminrui2022

\r 功能：本地音频增强与修复统一工具，集成 VoiceFixer（语音降噪/修复）和 AudioSR（高保真超级分辨率）。支持单文件与目录批量处理，自动适配最合适的增强模式，输出清晰、高质量的 48kHz WAV 文件。\r \r

触发时机（Triggers）\r

用户提供音频文件（.wav、.mp3、.flac、.m4a、.ogg 等）或音频文件夹路径，并表达增强音质、修复、降噪、高保真等意图。\r
用户说“音频增强”“修复录音”“降噪”“提升音质”“高保真”“48kHz”等关键词。\r
支持单个文件处理或整个文件夹批量处理（支持递归子目录）。\r \r

支持的两种增强模式\r

VoiceFixer 通用语音修复（默认模式）\r
- 擅长语音降噪、提升清晰度、修复轻微失真。\r
- 推荐用于：会议录音、访谈、播客、语音笔记、老旧录音。\r \r
AudioSR 高保真音频超级分辨率（启用 --hifi 时）\r
- 将音频提升至 48kHz，显著增加高频细节和整体保真度。\r
- 推荐用于：音乐、演唱、人声、需要高音质的场景。\r \r

参数提取指南\r

当决定调用此技能时，请从用户消息中准确提取以下参数：\r \r

\x3C输入路径> (必填): 用户提供的音频文件路径或文件夹路径（支持相对/绝对路径）。\r
\x3C输出路径> (选填): 用户指定的输出文件或目录路径。若未指定，默认在输入同级目录自动添加 _enhanced 后缀。\r
\x3C模式选择> (选填):\r
- 默认使用 VoiceFixer。\r
- 若用户提到“高保真”“音乐”“48kHz”“超分辨率”等，自动添加 --hifi 并使用 AudioSR。\r
VoiceFixer 专用参数（默认模式）:\r
- --mode：0/1/2（推荐 1，默认 1）\r
- --cuda：是否使用 GPU\r
- -r, --recursive：是否递归子目录\r
AudioSR 专用参数（--hifi 模式）:\r
- --model_name：basic 或 speech（人声推荐 speech）\r
- --ddim_steps：扩散步数（默认 50，建议 50-100）\r
- --guidance_scale：引导尺度（默认 3.5）\r
- --seed：随机种子（默认 42）\r
- --device：cuda 或 cpu\r \r

执行步骤\r

解析路径：识别用户提供的音频文件或文件夹路径。\r
模式判断：根据用户意图判断使用 VoiceFixer（默认）还是 AudioSR（含 --hifi）。\r
默认目标：若未指定输出路径，默认在输入目录生成带 _enhanced_48k（AudioSR）或 _enhanced（VoiceFixer）后缀的文件。\r

调用命令：使用以下兼容性命令启动脚本（优先 python3，失败则 python）。脚本会自动检查环境、初始化模型并处理。\r \r

(python3 scripts/enhancer.py -i "\x3C输入路径>" [-o "\x3C输出目录>"] [-m \x3C0|1|2>] [--cuda] [-r] [--hifi] [--model_name \x3Cbasic|speech>] [--ddim_steps \x3C数值>] [--guidance_scale \x3C数值>] [--seed \x3C数值>] [--device \x3Ccuda|cpu>]) || (python scripts/enhancer.py -i "\x3C输入路径>" [-o "\x3C输出目录>"] [-m \x3C0|1|2>] [--cuda] [-r] [--hifi] [--model_name \x3Cbasic|speech>] [--ddim_steps \x3C数值>] [--guidance_scale \x3C数值>] [--seed \x3C数值>] [--device \x3Ccuda|cpu>])

安全使用建议

简明建议： - 这是一个功能与实现基本一致的本地音频增强工具，但首次运行会自动创建虚拟环境并从互联网下载/安装大量依赖和模型（包括 git+ 仓库和 PyTorch wheel，可能数 GB）。预计耗时长、占用磁盘和网络流量。 - 在生产或敏感环境中运行前：在隔离环境（容器或专用虚拟机）中先测试；确认你愿意允许脚本写入项目目录（venv、models、logs、pytorch_wheels）。 - 检查 Python 版本（脚本强制要求 3.10–3.12）。 - 如果你担心供应链风险：手动审查或手动安装依赖、手动下载模型/whl，然后运行脚本时禁用自动安装（或阅读 ensure_package.py 来了解行为）。 - 脚本会探测 GPU（调用 nvidia-smi）并据此安装对应 PyTorch wheel；如果不希望脚本访问系统 GPU/路径，可在无 GPU 的隔离环境中运行或禁用网络。 - 无需提供任何 API 密钥或凭据；脚本也没有明显的数据外发端点，但会联网下载第三方包和模型（请确认接受这些来源：GitHub、huggingface、download.pytorch.org）。如需我帮你：我可以列出首次运行将要安装的具体包/URLs，或生成一个在容器中运行的最小命令/Dockerfile 来安全测试该技能。

功能分析

Type: OpenClaw Skill Name: audio-enhancement-engine Version: 1.0.3 The skill bundle performs extensive system-level environment modifications, including creating virtual environments, downloading large binary wheels (2.5GB+) from external URLs, and installing multiple dependencies directly from GitHub repositories (e.g., haoheliu/voicefixer). Files like `env_manager.py` and `upgrade_torch.py` execute system commands (nvidia-smi, find) and manipulate environment variables (LD_LIBRARY_PATH), while `ensure_package.py` uses subprocess to manage pip installations with broad permissions. While these actions appear aligned with the requirements of AI audio models, the heavy reliance on external code execution and automated system configuration represents a significant supply chain risk and a broad attack surface.

能力评估

✓ Purpose & Capability

名称与描述（音频增强、VoiceFixer、AudioSR）与实际代码匹配：脚本实现了 VoiceFixer 与 AudioSR 调用、支持单文件/目录批量处理、输出 WAV、支持 CUDA。要求的外部能力（python、GPU 可选）与用途一致。

⚠ Instruction Scope

SKILL.md 指示运行 scripts/enhancer.py，但未向最终用户详细列出实际运行时动作：脚本会创建/切换到虚拟环境、通过 pip 动态安装/升级大量依赖（含 git+ 安装）、检测/调用 nvidia-smi、解析系统路径、并下载模型与大文件。尽管这些对功能有理由，但这些步骤访问系统工具和路径（nvidia-smi、/usr/local、venv 目录、模型/日志目录），以及自动重启进程的行为，超出了简单“运行脚本”的表述，应向用户明确告知。

⚠ Install Mechanism

没有单独的 install spec，但代码在首次运行会通过 ensure_package.py 和 env_manager.py 调用 pip 安装多量依赖（PyPI、git+GitHub）、并在某些脚本中下载大型 PyTorch wheel（通过 download.pytorch.org）。动态从网络安装第三方包与模型是必要但具有风险（依赖完整性、下载量大、耗时），并且包含 git+ installs 与本地回退 zip 逻辑——可被滥用或带来供应链隐患。

ℹ Credentials

Skill 不要求任何外部凭证或敏感环境变量。代码会使用/设置少量非敏感 env vars (RUNNING_IN_VENV, HF_HUB_* toggles, optional VOICEFIXER_CACHE_DIR) 并读写项目内的 logs/models/venv 路径。未见请求 AWS/云/令牌类凭证，访问范围与本地模型/依赖管理的目的相符，但脚本会遍历系统路径并调用 nvidia-smi，可能暴露本机硬件信息（仅本机探测，无外发）。

ℹ Persistence & Privilege

always:false (正常)。脚本会在项目附近创建/管理一个虚拟环境 (venv)、写入日志文件并下载模型/whl 到项目目录；它不会修改其他技能或全局系统配置，但会在本进程环境中设置 LD_LIBRARY_PATH 并可能在 venv 中卸载/重装 torch（仅影响该 venv）。这些是持久写入，用户应确认磁盘与权限。

版本历史

v1.0.3

Version 1.0.3 of audio-enhancement-engine - No file changes detected in this release. - Maintains function and behavior identical to the previous version.

v1.0.2

- 技能名称从 audio-enhancement 更新为 audio-enhancement-engine。 - 其余内容无更改。

v1.0.1

Version 1.0.1 of audio-enhancement-engine - No file changes detected in this version. - Functionality, user features, and trigger phrases remain unchanged. - No updates to processing procedures or supported formats.

v1.0.0

Audio Enhancement Skill 1.0.0 - Initial release providing local audio enhancement and restoration. - Integrates VoiceFixer (general speech enhancement) and AudioSR (high-fidelity super resolution up to 48kHz). - Supports single audio files or entire folders (with batch and recursive processing). - Auto-selects the best enhancement mode (VoiceFixer by default; switches to AudioSR for high-fidelity/music use cases). - Compatible with common formats (wav, mp3, flac, m4a, ogg); all output in high-quality WAV. - Processes only audio files or audio directories—other file types are ignored.

元数据

Slug audio-enhancement-engine

版本 1.0.3

许可证 MIT-0

累计安装 0

当前安装数 0

历史版本数 4

常见问题

audio-enhancement-engine 是什么？

当用户想要**音频增强**、**提升音质**、**修复录音**、**降噪**、**语音修复**、**高保真音频**、**48kHz超分辨率**、**清理会议录音**、**音乐音质提升**、**批量处理音频**时自动触发。集成 **VoiceFixer**（通用语音修复）与 **AudioSR**（高保真音频超级... 它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件，目前累计下载 155 次。

如何安装 audio-enhancement-engine？

在 OpenClaw 或 Claude Code 对话框中运行命令「/install audio-enhancement-engine」即可一键安装，无需额外配置。

audio-enhancement-engine 是免费的吗？

是的，audio-enhancement-engine 完全免费，采用 MIT-0 许可证，可自由下载、安装和使用。

audio-enhancement-engine 支持哪些平台？

audio-enhancement-engine 跨平台运行，可在任意部署了 OpenClaw / Claude Code 的环境中使用（cross-platform）。

谁开发了 audio-enhancement-engine？

由顶尖王牌程序员（@wangminrui2022）开发并维护，当前版本 v1.0.3。

audio-enhancement-engine