功能描述

蛋白质氨基酸功能类别相邻对频率分析。对任意蛋白质家族的多物种序列进行多序列比对（MSA）、共识序列提取、对型统计和配方计算，输出Top5高频对型及φ值。适用于：（1）对新物种/类群运行完整分析流程，（2）从已有共识序列进行对型统计，（3）横向比较不同物种/类群的氨基酸对组成差异，（4）修改氨基酸分类或统计参数后重...

使用说明 (SKILL.md)

氨基酸对频率分析（aa-pair-analysis）

Name: Aa Pair Analysis
Author: wuhen9nine

首次使用：环境初始化

首次调用本 skill 前，先运行初始化脚本，自动检测并安装所有依赖：

bash skills/aa-pair-analysis/scripts/setup.sh

脚本会依次检查并安装：

依赖	说明	自动安装方式
Python 3.8+	运行分析脚本	需手动预装
pandas	数据处理与CSV输出	`pip install pandas`
biopython	序列处理（可选）	`pip install biopython`
ClustalOmega	多序列比对（MSA）	apt / brew / conda / 二进制下载

如果环境已配置好，跳过此步骤直接运行分析即可。

核心文件

分析脚本（完整流程）: scripts/species_analysis_workflow.py（FASTA→MSA→结果）
方法详情: references/method.md
氨基酸分类: references/classification.md

快速运行

cd skills/aa-pair-analysis

# 从原始FASTA完整流程（MSA→共识→对分析）
python scripts/species_analysis_workflow.py 任务名 数据目录 --threshold 0.5

# 断点续传
python scripts/species_analysis_workflow.py 任务名 数据目录 --resume 已有结果目录

关键参数

参数	默认值	说明
`--threshold`	0.5	共识序列保守性阈值（最高频氨基酸占比≥该值才写入，否则标X）
`--resume`	无	指定已有结果目录，从断点继续

输出文件

文件	内容
`species_formulations.csv`	每个类群的Top5对型、φ值、21种对型计数
`top_5_pairs_details.csv`	Top5对型逐条明细
`formulation_summary.csv`	总类群数、独特配方数

氨基酸分类（固定，不可更改）

详见 references/classification.md。

参与统计（17种）：Hydrophobic(V,L,I,M) / Nucleophilic(S,T,C) / Aromatic(F,Y,W) / Amide(N,Q) / Acidic(D,E) / Cationic(H,K,R)

排除（不统计）：X、A（丙氨酸）、G（甘氨酸）、P（脯氨酸）

计数方法（已验证，不可更改）

剔除共识序列中所有 X/A/G/P，直接拼接为新序列
统计新序列所有相邻对（有方向）
合并对称对（N-H + H-N → H-N）得21种无向对型
按计数排名选Top5

修改分析参数时的注意事项

修改氨基酸分类：同步更新 scripts/run_pdf_analysis.py 和 scripts/species_analysis_workflow.py 中的 FUNCTIONAL_CLASSES 字典
修改阈值：使用 --threshold 参数，无需改代码
修改计数方法：Step3（过滤拼接）和Step5（对称合并）需同步修改两个脚本

安全使用建议

总体上这个 skill 做的事情与其说明一致：它在本地做 MSA、提取共识并统计氨基酸对。主要担忧是安装/环境步骤而非分析逻辑本身。建议在安装/运行前采取以下措施： - 不要直接在生产主机上以 root 或你的主账户执行 scripts/setup.sh。先阅读脚本内容并理解每一步（尤其是 sudo 调用和对 ~/.bashrc 的修改）。 - 手动安装关键依赖：用你信任的包管理器或官方渠道手动安装 clustalo（优先使用 HTTPS/官方包管理器或 conda/bioconda），并用 pip 安装 pandas/biopython。避免让脚本通过 HTTP 下载二进制。 - 注意硬编码路径：species_analysis_workflow.py 默认写入 /home/lenovo/...，在运行前用 --resume 参数指定合适的任务目录或在脚本中修改默认路径为当前用户目录，避免写入其他用户目录或系统位置。 - 若要处理敏感 PDF，请在隔离环境（VM、容器）中运行 run_pdf_analysis.py，或先手动提取/审核序列数据再喂入脚本。 - 如果你不信任自动安装步骤，跳过 setup.sh，确保 python3、pandas、biopython、clustalo 已由你或系统管理员以安全方式安装并可用于 PATH 后再运行分析脚本。在这些缓解措施实施后，技能的风险会明显降低。

功能分析

Type: OpenClaw Skill Name: aa-pair-analysis Version: 1.0.4 The skill bundle contains hardcoded absolute paths to a specific user's home directory ('/home/lenovo/') in 'scripts/run_pdf_analysis.py' and 'scripts/species_analysis_workflow.py', which is a significant security and portability concern. Additionally, 'scripts/setup.sh' downloads a binary from an external URL (clustal.org) and modifies the user's '.bashrc' to update the PATH. While these actions are plausibly required for the stated bioinformatics analysis, the hardcoded paths to sensitive local directories and the execution of remote binaries represent high-risk behaviors without sufficient sanitization.

能力评估

ℹ Purpose & Capability

技能名/描述与代码和文档一致：脚本执行 MSA、提取共识、剔除指定残基、统计相邻对并输出 Top5/φ 值。要求的依赖（Python/pandas/biopython/clustalo）与用途一致. 需要注意：主脚本默认创建任务目录时使用了硬编码路径 '/home/lenovo/.openclaw/...'，这不是通用的用户目录，属于工程疏漏，可能导致权限问题或意外在其他用户主目录下写入。

ℹ Instruction Scope

SKILL.md 与脚本说明一致，运行流程清晰：先运行 setup.sh（可选跳过），然后运行 workflow 或 PDF 提取脚本。所有脚本只在本地文件系统上读写序列/结果文件并调用 clustalo；没有外部网络 API 调用或未声明的远程终端。但 run_pdf_analysis.py 会解析任意 PDF 内容并将提取文本/序列写入磁盘 — 如果输入 PDF 含敏感信息，应留意隐私/合规性。

⚠ Install Mechanism

该 skill 没有平台安装规范，但提供了 scripts/setup.sh 用于自动安装依赖。问题点：setup.sh 可能使用 sudo apt-get（需要特权），会修改用户的 shell 启动文件以将 $HOME/.local/bin 加入 PATH（持久化改变），并在找不到包时尝试通过 curl 下载预编译 clustalo 二进制。下载 URL 使用 plain HTTP (http://www.clustal.org/omega/clustalo-1.2.4-Ubuntu-x86_64) 而非 HTTPS — 这会产生中间人/篡改风险。总体上自动安装脚本虽然方便，但其下载/安装步骤增加了供应链风险；建议手动验证或手动安装 clustalo/pip 包。

✓ Credentials

没有声明或要求任何环境变量、密钥或外部凭证；脚本也未尝试读取非相关系统凭证。所需权限仅为读写文件系统（在 task_dir 下）和可选的 sudo 安装操作，这与功能相称。

ℹ Persistence & Privilege

技能默认不会强制常驻（always: false）且允许自主调用（正常）。唯一的持久化行为来自 setup.sh：它可能写入 $HOME/.bashrc 来永久修改 PATH（将 ~/.local/bin 加入 PATH）并在系统上安装软件（sudo apt-get 或写入用户主目录）。此外，species_analysis_workflow.py 默认任务目录硬编码为 /home/lenovo/...，可能在不同系统上创建不期望的路径。

版本历史

v1.0.4

修正依赖声明：区分Python包依赖(pandas,biopython)和系统依赖(clustalo)

v1.0.3

更新SKILL.md：完善氨基酸分类体系、计数方法、φ值计算公式的详细描述

v1.0.2

通用化description表述，强调适用任何蛋白质家族；移除PDF批量分析脚本引用（特定使用场景）

v1.0.1

统一氨基酸分类体系：A/G/P 排除不统计（与 serine-protease-fragment-analysis 对齐）；method.md 补充最终验证方法细节

v1.0.0

- Initial release of aa-pair-analysis for protein amino acid functional pair frequency analysis. - Supports batch analysis from PDF consensus sequences or full pipeline from FASTA input (MSA, consensus extraction, pair count, formulation calculation). - Provides ready-to-use scripts for complete analysis workflow and batch processing. - Outputs include Top5 high-frequency pair types, phi values, and summary statistics for each clade. - Includes environment setup instructions and clear parameter/configuration guidance. - Amino acid functional classification and counting method are fixed and documented for reproducibility.

元数据

Slug aa-pair-analysis

版本 1.0.4

许可证 MIT-0

累计安装 0

当前安装数 0

历史版本数 5

常见问题

Aa Pair Analysis 是什么？

蛋白质氨基酸功能类别相邻对频率分析。对任意蛋白质家族的多物种序列进行多序列比对（MSA）、共识序列提取、对型统计和配方计算，输出Top5高频对型及φ值。适用于：（1）对新物种/类群运行完整分析流程，（2）从已有共识序列进行对型统计，（3）横向比较不同物种/类群的氨基酸对组成差异，（4）修改氨基酸分类或统计参数后重... 它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件，目前累计下载 372 次。

如何安装 Aa Pair Analysis？

在 OpenClaw 或 Claude Code 对话框中运行命令「/install aa-pair-analysis」即可一键安装，无需额外配置。

Aa Pair Analysis 是免费的吗？

是的，Aa Pair Analysis 完全免费，采用 MIT-0 许可证，可自由下载、安装和使用。

Aa Pair Analysis 支持哪些平台？

Aa Pair Analysis 跨平台运行，可在任意部署了 OpenClaw / Claude Code 的环境中使用（cross-platform）。

谁开发了 Aa Pair Analysis？

由 wuhen9nine（@wuhen9nine）开发并维护，当前版本 v1.0.4。

Aa Pair Analysis