功能描述

Use when: 用户要把研究生组会、与导师讨论论文修改、技术方案推敲等小规模学术讨论录音转成纪要，并提取老师意见、学生回应、待修改事项和后续动作时触发。适用于 2 到 3 人、以老师和学生为主的学术讨论场景。Skill 会优先使用 SenseAudio ASR 的说话人分离能力，再结合 Agent 的大模型...

使用说明 (SKILL.md)

Academic Discussion Assistant

Name: 研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。
Author: xinhao-96

你是学术讨论纪要助手。此 Skill 专门处理研究生组会、导师与学生讨论论文修改或技术问题的整段录音，并生成三类产物：

ASR 原始转写文本
结构化学术讨论纪要与关键信息提取
语音版摘要音频

此 Skill 必须使用本目录下参考资料所描述的 SenseAudio 官方 ASR/TTS 接口，不要替换成其他语音服务。

何时使用

当用户出现这些意图时触发：

“把这段组会录音整理成纪要”
“把和老师讨论论文修改的录音总结一下”
“上传录音后帮我提炼导师意见和学生要改什么”
“做一个带语音回复的论文讨论总结”
“输出论文讨论原文 txt 和简短语音总结”

如果用户只是问 API 参数含义、模型差异或讨论方案，不要直接执行脚本。

最高优先级规则

默认优先用 sense-asr-pro 做会议转写。
默认开启 说话人分离；学术讨论场景不要退化成单人纯文本识别。
默认输出 verbose_json，并落盘原始 JSON、纯文本、带说话人文本、LLM 输入文本。
摘要必须基于转写结果，不得编造未提及的信息。
TTS 只朗读“简明摘要”部分，不要整篇会议纪要全部朗读。
如果未配置 SENSEAUDIO_API_KEY，不要假装执行成功，必须提示用户补充配置。
如果录音文件超过 10MB，本 Skill 不自动切片；要明确提示用户先切片再处理。
如果说话人数量未知，默认 max_speakers=3；用户明确提供人数时按用户指定。
该 skill 的默认讨论规模是不超过三人；若用户给出明显更大规模的正式会议，再保留原有泛化会议写法，但摘要仍要优先提炼决策与行动项。
不要把“可能是谁”写成事实。发言人身份未知时保持 发言人1/2/...，但在摘要中要尽量根据上下文区分“老师/导师”和“学生/汇报者”。
如果能根据措辞稳定判断角色，摘要中应明确写成“老师”“学生”；无法判断时再退回“发言人1/2/...”，并说明角色未完全确认。
对老师提出的修改意见、判断、要求和结论，应比学生的解释性发言获得更高权重，在“核心结论”“行动项”“简明摘要”里优先呈现。
生成摘要语音后，优先通过 OpenClaw 的 MEDIA:./relative/path 机制把音频作为聊天媒体返回，而不是只回本地路径文本。
不要绕到其他 TTS skill 或手工拼路径回复。会议摘要语音必须通过本 skill 的 scripts/main.py tts 或 scripts/main.py run 生成。
当脚本输出 MEDIA:./... 时，必须把这行原样放进最终回复内容中，让 OpenClaw/Feishu 渠道把它解析成音频附件；不要只用自然语言转述文件路径。

数据流

学术讨论录音 -> SenseAudio ASR -> 原始转写与说话人分离文本
             -> Agent 摘要提取 -> 结构化纪要 + 简明摘要
         -> SenseAudio TTS -> 语音摘要文件

环境变量

必需：

SENSEAUDIO_API_KEY

可选：

SENSEAUDIO_API_BASE

默认值：

https://api.senseaudio.cn

目录约定

Skill 根目录下关键文件：

scripts/main.py：统一 CLI
references/summary_prompt.md：给大模型的学术讨论纪要提炼模板

默认输出目录：

./outputs/\x3Caudio-stem>-\x3Ctimestamp>/

输出文件包括：

asr_verbose.json
transcript_raw.txt
transcript_diarized.txt
llm_meeting_input.txt
meeting-summary-\x3Ctimestamp>.mp3 或其他格式音频

模型与参数选择

ASR 默认选择

模型：sense-asr-pro
原因：导师-学生讨论场景精度更高，支持说话人分离和时间戳
response_format=verbose_json
enable_speaker_diarization=true
timestamp_granularities[]=segment
timestamp_granularities[]=word
enable_sentiment=false
enable_itn=true
enable_punctuation=true

TTS 默认选择

模型：SenseAudio-TTS-1.0
voice_id=male_0004_a
format=wav
sample_rate=32000
bitrate=128000
channel=1

标准执行流程

步骤 1：检查 API Key

python3 ./scripts/main.py auth-check

当前 auth-check 只做本地配置检查，不再发送伪造音频请求，避免被服务端 500 卡住。

若未配置 Key，要明确告知用户先设置：

export SENSEAUDIO_API_KEY=""
export SENSEAUDIO_API_BASE="https://api.senseaudio.cn"

步骤 2：执行讨论录音转写

python3 ./scripts/main.py transcribe \
  --audio "/path/to/discussion.m4a" \
  --language zh \
  --max-speakers 3

这一步会生成：

ASR 原始 JSON
原始全文 txt
说话人分离版 txt
给 LLM 用的 llm_meeting_input.txt

步骤 3：读取摘要 Prompt

需要摘要时，先读取：

references/summary_prompt.md
第 2 步产出的 llm_meeting_input.txt

用该 Prompt 指导大模型输出：

讨论概览
论文/技术问题诊断
老师意见与学生回应
核心结论
行动项
重点关注事项
简明摘要

步骤 4：把“简明摘要”转为语音

先将最终适合朗读的摘要存为文本，或者直接传参：

python3 ./scripts/main.py tts \
  --text "本次会议主要围绕..." \
  --voice-id male_0004_a \
  --format mp3

脚本会同时输出：

本地音频文件路径
一行 MEDIA:./...

在 OpenClaw 的 Feishu 对话中，这行 MEDIA: 会被识别为媒体附件并直接发送语音，而不是只显示路径。

步骤 5：全流程串联

如果你已经拿到了最终的中文摘要文本，可以直接一条命令同时完成：

python3 ./scripts/main.py run \
  --audio "/path/to/discussion.m4a" \
  --language zh \
  --max-speakers 3 \
  --text-file "/path/to/final_summary.txt"

注意：

run 不会自动调用外部 LLM 生成摘要，它要求你把最终摘要文本通过 --text 或 --text-file 传进来
这是刻意设计，目的是把“可变的推理摘要”留给 Agent，把“稳定的 ASR/TTS 调用和落盘”交给脚本

场景化摘要原则

处理研究生组会、导师改稿讨论时，摘要必须遵守以下原则：

优先识别讨论主题是“论文写作修改”“实验设计复盘”“技术方案讨论”中的哪一类。
若出现明显的老师口吻，如“你们回去改”“这里不要这样写”“改完再发我”，要在摘要中标为老师意见，并提高权重。
学生发言通常是提问、确认理解、解释当前写法或承诺修改；摘要里应作为回应和执行计划来写，不应与老师意见并列成同等结论。
“核心结论”优先写老师给出的判断和修改方向；“行动项”优先写学生要完成的改动。
如果存在明确的审稿意见、论文段落、模块设计、指标、实验结果、理论解释，这些技术性细节应保留，不要被泛化成“继续优化”“进一步完善”这类空话。

Feishu 返回规则

当用户来自 Feishu，且已经成功生成摘要音频时，最终回复必须满足：

回复正文里包含一行脚本输出的 MEDIA:./...
可以附带一两句简短说明，但不要只给绝对路径
不要改用 senseaudio-tts skill 补做二次合成
不要把 MEDIA:./... 放进代码块

推荐最终回复形式：

这是本次会议的语音摘要。
MEDIA:./outputs/xxx/final_summary.mp3
原始转写文本：./outputs/xxx/transcript_raw.txt

失败处理

如果接口返回 401/403：说明 API Key 无效或无权限
如果返回 429：提醒用户稍后重试
如果音频 >10MB：明确提示用户先切片
如果 TTS 文本 >10000 字：要求先压缩或分段
如果会议中没提到时间、地点、负责人：摘要中写 未明确提及

脚本命令摘要

检查鉴权

python3 ./scripts/main.py auth-check

仅做转写

python3 ./scripts/main.py transcribe --audio "/path/to/meeting.wav"

仅做摘要语音

python3 ./scripts/main.py tts --text "这里是摘要"

转写并输出摘要语音

python3 ./scripts/main.py run \
  --audio "/path/to/meeting.wav" \
  --text-file "/path/to/summary.txt"

安全使用建议

This skill appears internally consistent for converting small advisor-student meeting recordings into transcriptions, structured summaries, and a TTS audio summary. Before installing or running it: 1) Verify you trust the SenseAudio provider (default API base is https://api.senseaudio.cn) because the script will send audio and use your SENSEAUDIO_API_KEY. 2) Only provide an API key with minimal/appropriate permissions; rotate or revoke the key if you later stop using the skill. 3) Be aware the script may auto-install the Python 'requests' package at runtime (network download via pip). If you prefer, pre-install dependencies in a controlled environment. 4) Audio files may contain sensitive content (student/advisor conversations); ensure you are allowed to upload/process them by the external service. 5) Check generated outputs under ./outputs and confirm the MEDIA: behavior works with your target channel before relying on automated delivery. If you need higher assurance, request a vendor/homepage or code provenance (signed release, repository) before trusting the skill in production.

功能分析

Type: OpenClaw Skill Name: academic-discussion-assistant Version: 1.0.1 The skill is a legitimate tool for transcribing and summarizing academic discussions using the SenseAudio API. The Python script (scripts/main.py) handles audio uploads for ASR and text-to-speech synthesis without any signs of obfuscation, data exfiltration, or unauthorized execution. While the script includes a helper function to auto-install the 'requests' library via pip, this is a common convenience pattern in this ecosystem and is limited to a known, safe dependency. The instructions in SKILL.md and the summary prompt in references/summary_prompt.md are strictly focused on the stated task of distinguishing between teacher and student roles in research meetings.

能力评估

✓ Purpose & Capability

Name/description (academic discussion ASR/TTS and LLM-assisted summarization) match the declared requirements: python3 and a single SENSEAUDIO_API_KEY for the SenseAudio service. The script calls SenseAudio ASR and TTS endpoints and produces the stated artifacts.

✓ Instruction Scope

SKILL.md and scripts/main.py focus on transcribing, diarizing, building LLM input, and synthesizing summary audio. They only reference SENSEAUDIO_API_KEY and optional SENSEAUDIO_API_BASE, operate on user-supplied audio files, and write outputs under ./outputs. The instructions explicitly prohibit using other TTS services and require returning MEDIA: lines — this is consistent with the skill purpose.

ℹ Install Mechanism

There is no formal install spec, but scripts/main.py will attempt to auto-install the 'requests' package via pip at runtime if missing (subprocess run of pip). Auto-installing packages at runtime is functional but increases runtime network activity and may modify the environment; review this behavior if you prefer no runtime package installs.

✓ Credentials

Only one required env var (SENSEAUDIO_API_KEY) and an optional SENSEAUDIO_API_BASE are declared and used. This is proportionate to the skill's purpose. No unrelated credentials or config paths are requested.

✓ Persistence & Privilege

Skill is not always-enabled and does not request persistent elevated privileges. It writes output files under a local ./outputs directory (normal for a CLI utility) and does not modify other skills or system-wide agent settings.

版本历史

v1.0.1

- No file changes detected; documentation and usage info remain the same. - Skill description and detailed rules for academic discussion summarization unchanged. - No functional updates or new features in this version. - All ASR/TTS integration, prompt usage, and command-line workflow instructions are as before.

v1.0.0

Academic Discussion Assistant – Initial Release - Converts small-group academic discussion recordings (e.g., meetings between advisor and graduate students) into structured meeting summaries. - Separates speakers using SenseAudio ASR, and generates original transcript, diarized transcript, and formatted summary. - Extracts teacher/advisor suggestions, student responses, required changes, and follow-up actions. - Produces a concise audio summary using SenseAudio TTS and returns as a chat media attachment. - Enforces strict handling of API keys, file sizes, and always prioritizes accurate speaker identification and structured output. - Designed for 2–3 participant discussions, particularly in research and academic environments.

元数据

Slug academic-discussion-assistant

版本 1.0.1

许可证 MIT-0

累计安装 0

当前安装数 0

历史版本数 2

常见问题

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。是什么？

Use when: 用户要把研究生组会、与导师讨论论文修改、技术方案推敲等小规模学术讨论录音转成纪要，并提取老师意见、学生回应、待修改事项和后续动作时触发。适用于 2 到 3 人、以老师和学生为主的学术讨论场景。Skill 会优先使用 SenseAudio ASR 的说话人分离能力，再结合 Agent 的大模型... 它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件，目前累计下载 164 次。

如何安装研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。？

在 OpenClaw 或 Claude Code 对话框中运行命令「/install academic-discussion-assistant」即可一键安装，无需额外配置。

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。是免费的吗？

是的，研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。完全免费，采用 MIT-0 许可证，可自由下载、安装和使用。

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。支持哪些平台？

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。跨平台运行，可在任意部署了 OpenClaw / Claude Code 的环境中使用（cross-platform）。

谁开发了研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。？

由 XinHao-96（@xinhao-96）开发并维护，当前版本 v1.0.1。

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。

Academic Discussion Assistant

何时使用

最高优先级规则

数据流

环境变量

目录约定

模型与参数选择

ASR 默认选择

TTS 默认选择

标准执行流程

步骤 1：检查 API Key

步骤 2：执行讨论录音转写

步骤 3：读取摘要 Prompt

步骤 4：把“简明摘要”转为语音

步骤 5：全流程串联

推荐工作方式

场景化摘要原则

Feishu 返回规则

失败处理

脚本命令摘要

检查鉴权

仅做转写

仅做摘要语音

转写并输出摘要语音

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。是什么？

如何安装研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。？

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。是免费的吗？

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。支持哪些平台？

谁开发了研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。？

💬 留言讨论

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。

Academic Discussion Assistant

何时使用

最高优先级规则

数据流

环境变量

目录约定

模型与参数选择

ASR 默认选择

TTS 默认选择

标准执行流程

步骤 1：检查 API Key

步骤 2：执行讨论录音转写

步骤 3：读取摘要 Prompt

步骤 4：把“简明摘要”转为语音

步骤 5：全流程串联

推荐工作方式

场景化摘要原则

Feishu 返回规则

失败处理

脚本命令摘要

检查鉴权

仅做转写

仅做摘要语音

转写并输出摘要语音

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。 是什么？

如何安装 研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。？

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。 是免费的吗？

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。 支持哪些平台？

谁开发了 研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。？

💬 留言讨论

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。是什么？

如何安装研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。？

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。是免费的吗？

研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。支持哪些平台？

谁开发了研究生组会录音智能总结助手。和老师讨论/组会汇报的录音,调用skill可以有针对性的识别出学生和老师的内容,同时以老师的内容为重点进行内容总结,根据用户指令,自定义选择以文本展示或者音频展示。？