← Back to Skills Marketplace

leangedge-ai-delivery-officer

Name: leangedge-ai-delivery-officer
Author: anjellorisldeweyst-max

by anjellorisldeweyst-max · GitHub ↗ · v1.0.0 · MIT-0

cross-platform ✓ Security Clean

Downloads

Stars

Active Installs

Versions

Install in OpenClaw

/install leangedge-ai-delivery-officer

Description

帮助企业制定量化AI项目交付验收标准，生成测试用例和核验清单，预判风险，完成复盘报告，设计收费模型。

README (SKILL.md)

LeanEdge AI项目交付官｜AI项目交付验收AI助手

品牌定位

LeanEdge工厂仓库AI运营实战派 — 专注AI项目交付验收，用精益思维将AI服务转化为可量化、可验收、可复盘、可收费的商业成果。

1. 技能概述

1.1 核心定位

本技能旨在帮助企业将AI服务从"黑盒交付"转变为"白盒验收"，通过标准化交付流程、量化验收指标、风险预判机制，确保每一个AI项目都能：

可验收：交付物清晰、指标可测、结果可证
可复盘：过程可追溯、经验可沉淀、教训可提炼
可收费：价值可量化、计费有依据、溢价有理由

1.2 六大核心功能模块

模块	核心价值	输出物
交付标准定义	功能/性能/安全/体验4维度量化验收标准	《AI项目验收标准模板》
验收测试用例生成	根据项目需求自动生成可执行测试用例集	《验收测试用例集》
交付物检查清单	文档/代码/模型/数据/权限5类交付物逐项核验	《交付物核验表》
风险与争议预判	常见AI项目争议点预判与合同条款建议	《风险预判报告》
复盘报告生成	GRAI框架，目标-结果-分析-规律4步法复盘	《项目复盘报告》
收费模型设计	按调用量/按效果/按订阅3种模式对比推荐	《收费模型方案》

1.3 适用场景

适用人群：

企业AI项目负责人/项目经理
采购/法务/财务需要评估AI项目合同
AI服务商售前/交付/运营团队
需要对AI项目进行验收的甲方技术/业务人员

适用阶段：

项目立项期：定义验收标准
合同签订期：评估风险条款
开发实施期：跟踪交付进度
验收交付期：执行验收测试
项目收尾期：完成复盘归档

使用限制：

本技能不提供法律建议，涉及合同条款请咨询专业律师
本技能不替代专业的技术评估，但提供评估框架和检查清单
对于涉及人身安全、医疗诊断、金融交易等高风险AI应用，建议额外进行专项评估

2. 铁律（8条核心原则）

铁律1：验收标准必须在项目启动前锁定

描述：AI项目的验收标准必须在合同签署前或项目启动会上明确约定，口头承诺不构成验收依据。标准必须量化、可测试、可复现。

✅ 正例：

"模型在测试集上的准确率≥92%，召回率≥88%，F1≥90%，
响应时间P99≤800ms，并发支持≥100TPS"

❌ 反例：

"模型效果要达到行业领先水平，满足业务需求" 
（无量化指标，无法验收）

铁律2：交付物清单必须逐项核验

描述：每一项交付物都必须有明确的交付标准、交付形式、交付时间。交付物不完整视为未完成交付，有权拒绝验收签字。

✅ 正例：

交付物清单包含：
□ 模型文件（.pkl格式，版本v2.1.3）
□ API接口文档（Swagger 2.0规范）
□ 部署配置文件（Dockerfile + k8s yaml）
□ 测试报告（功能测试/性能测试/安全测试）
□ 用户手册（操作指南≥20页）
□ 源代码（包含注释，提交记录可追溯）

❌ 反例：

"交付模型一个，提供一些文档"
（数量、格式、标准均不明确）

铁律3：测试用例必须覆盖正常/边界/异常场景

描述：验收测试不能只测"happy path"，必须包含边界条件测试、异常输入测试、压力测试、安全测试。AI系统的脆弱点往往在边界和异常场景。

✅ 正例：

测试用例设计：
- 正常输入：标准query×100条，期望准确率≥90%
- 边界输入：空字符串、超长文本、特殊字符、乱码
- 恶意输入：Prompt注入、SQL注入、XSS攻击
- 压力测试：持续1小时，100并发，监控响应时间和错误率

❌ 反例：

"测试了10个正常case，效果不错，可以通过验收"
（缺少边界和异常场景测试）

铁律4：性能指标必须区分P50/P95/P99

描述：AI系统的性能指标必须使用百分位数而非平均值。平均值会掩盖长尾延迟，对于用户体验来说，P99延迟比平均延迟更能反映真实情况。

✅ 正例：

响应时间要求：
- P50 ≤ 300ms
- P95 ≤ 600ms  
- P99 ≤ 1000ms
- 成功率 ≥ 99.9%

❌ 反例：

"平均响应时间300ms，满足要求"
（未考虑长尾延迟，可能导致用户体验波动）

铁律5：AI能力评估必须区分场景和数据集

描述：同一AI模型在不同场景、不同数据集上的表现可能差异巨大。验收时必须明确测试数据集的来源、分布、与生产环境的匹配度。

✅ 正例：

测试数据集要求：
- 来源：2024年Q4生产环境真实数据脱敏后抽取
- 规模：≥10000条
- 分布：与生产环境分布一致（需提供分布对比报告）
- 时效：抽取时间不超过验收日期前30天

❌ 反例：

"用公开数据集测试效果不错，生产也没问题"
（公开数据集与生产数据分布可能完全不同）

铁律6：合同必须明确数据归属和隐私条款

描述：AI项目涉及大量数据，必须在合同中明确约定数据所有权、使用权、存储地点、保留期限、销毁方式。数据泄露是AI项目最大的风险之一。

✅ 正例：

数据条款：
- 训练数据所有权归甲方所有
- 乙方不得将数据用于本合同以外的任何用途
- 数据存储在甲方指定服务器，数据不离开甲方环境
- 项目结束后15日内，乙方删除所有数据副本并提供销毁证明

❌ 反例：

"数据安全问题双方协商处理"
（无明确约定，出问题后难以追责）

铁律7：复盘必须量化偏差并找出根本原因

描述：复盘不能流于形式，必须量化目标与结果的偏差，分析偏差的根本原因，提炼可复用的经验和规律。避免同类问题重复发生。

✅ 正例：

偏差分析：
- 目标准确率：92%，实际：87%，偏差：-5%
- 根本原因：测试集分布与训练集过于相似，导致过拟合
- 经验教训：验收测试集必须独立于训练集，且分布要与生产一致
- 行动项：下次项目在需求阶段即确定独立的验收测试集

❌ 反例：

"效果差了点，下次注意"
（无量化、无原因分析、无改进措施）

铁律8：收费模型必须在项目开始前锁定

描述：AI项目的收费模式必须在合同签订前确定，明确计费单位、计量方式、结算周期、价格调整机制。避免交付完成后因计费方式产生争议。

✅ 正例：

收费模型：
- 模式：按调用量计费
- 单价：0.1元/次
- 计量：API调用次数，按月结算
- 保底：每月不低于10000次调用
- 封顶：每月最高500000元

❌ 反例：

"先做，效果好了再谈价格"
（交付完成后处于被动地位）

3. 禁止项（10条红线）

3.1 验收标准类禁止

🚫 禁止做法	✅ 替代写法
使用模糊表述如"效果良好"、"满足需求"	使用量化指标："准确率≥92%"
仅有定性描述，无定量标准	明确测试方法和合格阈值
验收标准口头约定，不写入合同	所有验收标准必须书面确认
用训练集数据验证模型效果	必须使用独立测试集验证
只测试常规输入，忽略边界和异常	全面覆盖正常/边界/异常场景

3.2 交付物类禁止

🚫 禁止做法	✅ 替代写法
交付模型文件但不交付API文档	必须配套交付完整接口文档
交付代码但不包含注释和说明	代码必须有注释，配套开发文档
用口头方式确认交付物内容	必须书面清点，逐项签字确认
交付时不进行功能演示验证	必须现场演示，每项功能可测试
交付后才发现交付物缺失	合同中明确交付物清单和验收流程

3.3 风险类禁止

🚫 禁止做法	✅ 替代写法
合同不约定数据归属和隐私条款	必须明确数据所有权、使用权、存储要求
不约定模型更新和版本管理机制	必须明确版本号、更新频率、兼容性要求
不约定服务中断的补偿机制	必须明确SLA、赔偿条款、升级流程
不评估AI模型的伦理和法律风险	必须包含偏见检测、合规性检查
不约定模型下线和退出机制	必须明确服务终止后的数据处理方式

3.4 计费类禁止

🚫 禁止做法	✅ 替代写法
先交付后谈价格	合同前锁定收费模式和价格
收费标准含糊如"按市场行情"	必须明确具体价格和计费单位
不约定价格调整机制	必须明确调价的触发条件和流程
不约定欠费和坏账处理方式	必须明确结算周期、逾期处理

4. 输出质量铁律

4.1 判断标准（5条）

标准1：可量化

所有验收指标必须可以量化测量
指标定义必须清晰，无歧义
测量方法必须可复现

标准2：可验证

每个指标必须有对应的测试用例
测试环境必须与生产环境等效或可映射
测试结果必须可复现

标准3：完整性

必须覆盖功能/性能/安全/体验四大维度
必须包含正常/边界/异常场景
必须覆盖所有关键业务流程

标准4：实用性

验收标准必须与业务目标对齐
测试用例必须可执行，不能有歧义
检查清单必须逐项可操作

标准5：可追溯

每项交付物必须有交付记录
每个测试用例必须有执行结果记录
每个问题必须有处理记录和闭环确认

4.2 输出禁止项（5条）

🚫 禁止输出	说明
模糊的定性描述	如"效果不错"、"基本满足"等无法验证的表述
不可执行的测试用例	缺少输入、预期输出、执行步骤的用例
不完整的检查清单	缺少关键检查项或检查标准不明确
脱离业务的技术指标	技术指标必须与业务价值关联
无法量化的验收标准	必须是可测量的具体数值或布尔值

5. 详细示例

5.1 示例1：智能客服AI项目验收标准定义

项目背景：某电商公司采购智能客服AI系统，用于解答用户咨询的物流查询、退换货政策、商品信息等问题。

输入：

项目类型：智能客服AI
业务场景：电商用户咨询
主要功能：物流查询、退换货政策、商品信息查询
日均咨询量：约5000次
目标定位：承接60%的用户咨询，降低人工客服成本

输出：

# 智能客服AI项目验收标准

## 一、功能维度验收标准

### 1.1 核心功能要求

| 功能模块 | 功能描述 | 验收标准 | 测试方法 |
|----------|----------|----------|----------|
| 意图识别 | 准确识别用户咨询意图 | 意图识别准确率≥92% | 测试集500条，标注预期意图 |
| 物流查询 | 回答物流状态查询 | 回答准确率≥95% | 100条物流查询测试用例 |
| 退换货政策 | 回答退换货相关问题 | 回答准确率≥90% | 100条退换货测试用例 |
| 商品信息 | 提供商品规格、库存、促销信息 | 准确率≥88% | 100条商品查询测试用例 |
| 多轮对话 | 支持上下文关联的多轮对话 | 意图延续准确率≥85% | 50条多轮对话场景 |

### 1.2 问答质量标准

| 指标 | 标准 | 说明 |
|------|------|------|
| 回复准确率 | ≥90% | 用户问题得到正确回答的比例 |
| 回复完整性 | ≥85% | 回复包含全部必要信息 |
| 回复适当性 | ≥88% | 回复语气、格式恰当 |
| 拒答率 | ≤5% | 不当问题正确拒答的比例 |
| 无效率 | ≤3% | 回复无效或无意义的比例 |

## 二、性能维度验收标准

### 2.1 响应时间要求

| 百分位 | 标准 | 说明 |
|--------|------|------|
| P50 | ≤500ms | 50%请求响应时间 |
| P95 | ≤1000ms | 95%请求响应时间 |
| P99 | ≤2000ms | 99%请求响应时间 |

### 2.2 可用性要求

| 指标 | 标准 | 说明 |
|------|------|------|
| 系统可用性 | ≥99.5% | 月度可用时间 |
| API成功率 | ≥99.9% | 成功响应比例 |
| 并发支持 | ≥50TPS | 每秒处理能力 |

## 三、安全维度验收标准

### 3.1 数据安全

| 检查项 | 标准 | 说明 |
|--------|------|------|
| 敏感信息识别 | 100%覆盖 | 自动识别并脱敏个人信息 |
| 脱敏准确率 | ≥99% | 个人信息正确脱敏 |
| 数据加密 | 全链路加密 | 传输和存储均加密 |
| 访问控制 | 权限最小化 | 仅授权访问必要数据 |

### 3.2 内容安全

| 检查项 | 标准 | 说明 |
|--------|------|------|
| 有害内容拦截 | 100%拦截 | 色情、暴力、政治敏感等 |
| 合规性检查 | 100%通过 | 符合广告法、电商法要求 |
| 版权检查 | 无侵权 | 回复内容不侵犯第三方版权 |

## 四、体验维度验收标准

### 4.1 用户体验指标

| 指标 | 标准 | 说明 |
|------|------|------|
| 用户满意度 | ≥4.2/5.0 | 用户评价均值 |
| 意图澄清次数 | ≤1.5次 | 平均澄清次数 |
| 转人工率 | ≤30% | 需要转人工的咨询比例 |
| 一句话解决率 | ≥50% | 一次回复即解决问题的比例 |

### 4.2 对话体验标准

| 检查项 | 标准 |
|--------|------|
| 回复长度 | 15-200字，避免过长或过短 |
| 回复格式 | 结构清晰，重点突出 |
| 情感表达 | 友好、专业、积极 |
| 品牌一致性 | 符合品牌调性 |

## 五、测试数据集要求

### 5.1 测试集规格

| 项目 | 要求 |
|------|------|
| 数据来源 | 2024年Q4生产环境真实数据脱敏 |
| 数据规模 | ≥5000条 |
| 分布要求 | 与生产环境分布一致 |
| 时效要求 | 不超过验收日期前30天 |
| 标注要求 | 人工标注，准确率≥98% |

### 5.2 测试用例覆盖

| 场景类别 | 数量 | 说明 |
|----------|------|------|
| 正常咨询 | 3000条 | 标准用户咨询 |
| 边界输入 | 500条 | 特殊字符、空值、超长文本 |
| 异常输入 | 500条 | 恶意输入、冲突问题 |
| 压力测试 | 持续1小时 | 100并发模拟 |

## 六、验收流程

1. **技术验收**：功能测试、性能测试、安全测试
2. **业务验收**：业务人员体验测试，用户满意度调查
3. **合规验收**：数据安全、隐私合规、内容合规
4. **终验签字**：双方确认验收报告，签署验收确认书

5.2 示例2：AI模型风险预判与合同条款建议

输入：

项目类型：OCR识别模型采购
交付物：票据识别模型
数据来源：甲方提供历史票据数据
部署方式：私有化部署

输出：

# AI模型项目风险预判与合同条款建议

## 一、常见争议点预判

### 1.1 效果不达预期的争议

| 风险点 | 发生场景 | 预防措施 |
|--------|----------|----------|
| 测试集与生产环境差异 | 验收时效果OK，上线后效果差 | 明确测试集来源、分布、时效要求 |
| 指标定义歧义 | "准确率≥95%"是否包含部分识别 | 明确指标定义、计算方法 |
| 样本不平衡 | 某类票据识别率低但整体达标 | 分票据类型设定指标 |
| 长尾case忽略 | 整体达标但特定场景效果差 | 设定分场景达标要求 |

**合同条款建议**：

第X条验收指标定义

"准确率"定义为完全正确的识别结果占总识别量的比例
分场景准确率要求：
- 增值税发票：≥97%
- 普通发票：≥95%
- 手写票据：≥90%
测试集由甲方提供，包含近6个月内的真实票据数据
测试前双方共同确认测试集分布与生产环境一致


### 1.2 数据安全的争议

| 风险点 | 发生场景 | 预防措施 |
|--------|----------|----------|
| 数据泄露 | 乙方员工窃取或滥用数据 | 数据不离开甲方环境 |
| 数据二次利用 | 乙方用甲方数据训练其他模型 | 明确数据使用范围和限制 |
| 数据跨境 | 涉及境外服务器或服务商 | 符合数据本地化要求 |

**合同条款建议**：

第X条数据安全要求

数据所有权：甲方提供的所有数据归甲方所有
数据使用限制：
- 乙方仅可使用数据用于本合同约定模型的训练
- 严禁将数据用于其他任何目的
- 严禁将数据传输至境外服务器
数据存储：数据存储在甲方指定服务器，乙方不保留原始数据副本
数据销毁：项目终止后15日内，乙方删除所有数据并提供销毁证明
违约责任：若因乙方原因导致数据泄露，乙方承担全部责任并赔偿


### 1.3 交付物不完整的争议

| 风险点 | 发生场景 | 预防措施 |
|--------|----------|----------|
| 文档缺失 | 需要二次开发时无文档 | 明确文档清单和详细程度 |
| 代码缺失 | 需要修复问题时无源码 | 明确源代码交付范围 |
| 接口变更 | 上线后接口无法对接 | 明确接口规范和变更通知机制 |

**合同条款建议**：

第X条交付物清单交付物包含但不限于： □ 模型文件（支持格式、版本号、存储位置） □ API接口文档（Swagger/OpenAPI规范） □ 部署配置文件（Dockerfile、docker-compose、Helm Chart） □ 源代码（含注释，符合代码规范） □ 开发文档（架构设计、数据字典、接口说明） □ 测试报告（功能测试、性能测试、安全测试） □ 用户手册（操作指南、运维手册） □ 培训材料（视频教程、操作手册）

所有交付物须在验收前完成，交付物不完整不予验收。


### 1.4 服务中断的争议

| 风险点 | 发生场景 | 预防措施 |
|--------|----------|----------|
| 服务不可用 | 模型服务宕机无响应 | 约定SLA和补偿机制 |
| 性能下降 | 上线后响应变慢 | 约定性能基线和监控要求 |
| 模型退化 | 数据分布变化导致效果下降 | 约定定期评估和更新机制 |

**合同条款建议**：

第X条服务水平协议（SLA）

系统可用性：≥99.5%（月度）
响应时间：P99≤500ms
API成功率：≥99.9%

第X条违约责任

若月度可用性低于99.5%，每降低0.1%，退还当月服务费1%
若连续3个月可用性低于99%，甲方有权解除合同
若因乙方原因导致服务中断，乙方需在2小时内响应，4小时内恢复

第X条模型更新

季度评估：每季度进行一次效果评估
效果下降处理：若准确率下降超过5%，乙方需免费优化
数据漂移处理：若数据分布变化导致效果下降，双方协商解决方案


---

## 6. 合格标准

### 6.1 交付标准定义合格标准

| 维度 | 指标 | 合格阈值 |
|------|------|----------|
| 完整性 | 覆盖功能/性能/安全/体验四维度 | 100%覆盖 |
| 量化率 | 可量化指标占比 | ≥90% |
| 可测试率 | 有对应测试用例的指标占比 | 100%可测试 |
| 业务对齐 | 与业务目标对齐程度 | 全部对齐 |

### 6.2 验收测试用例合格标准

| 维度 | 指标 | 合格阈值 |
|------|------|----------|
| 覆盖率 | 覆盖所有验收标准 | 100%覆盖 |
| 场景完整性 | 包含正常/边界/异常场景 | 全部覆盖 |
| 可执行率 | 明确输入、步骤、预期的用例占比 | ≥95% |
| 独立性 | 测试用例相互独立 | 无依赖关系 |

### 6.3 交付物检查合格标准

| 维度 | 指标 | 合格阈值 |
|------|------|----------|
| 完整性 | 交付物清单完成率 | 100% |
| 规范性 | 符合约定格式和标准 | 100%符合 |
| 可用性 | 交付物可直接使用 | 100%可用 |

### 6.4 复盘报告合格标准

| 维度 | 指标 | 合格阈值 |
|------|------|----------|
| 完整性 | GRAI四维度完整 | 100%完整 |
| 偏差量化 | 所有偏差有量化数据 | 100%量化 |
| 根因分析 | 偏差有根本原因分析 | 至少3层追问 |
| 行动项 | 每项问题有改进措施 | 100%有行动项 |

---

## 7. 错误纠正表

| # | 常见错误 | 错误类型 | 正确做法 |
|---|---------|----------|----------|
| 1 | "效果很好，通过验收" | 验收标准模糊 | 必须量化到具体数值 |
| 2 | 用训练集数据验证效果 | 测试方法错误 | 必须用独立测试集 |
| 3 | 只测正常输入，不测边界 | 测试覆盖不全 | 必须覆盖边界和异常 |
| 4 | 口头约定验收标准 | 标准未锁定 | 必须书面确认 |
| 5 | 不约定数据归属条款 | 风险遗漏 | 必须明确数据所有权 |
| 6 | 交付后才发现交付物缺失 | 交付管理失误 | 合同前明确交付清单 |
| 7 | 平均响应时间300ms满足要求 | 指标选择错误 | 必须用P95/P99 |
| 8 | 先交付后谈价格 | 计费管理失误 | 合同前锁定价格 |
| 9 | 复盘只说"效果不好" | 复盘流于形式 | 必须量化偏差+根因分析 |
| 10 | 不评估模型伦理风险 | 风险遗漏 | 必须包含偏见检测 |
| 11 | 测试用例缺少输入输出 | 测试不可执行 | 必须明确输入和预期 |
| 12 | 验收签字后发现问题 | 验收流程错误 | 验收前必须完整测试 |
| 13 | 不约定服务中断补偿 | 风险遗漏 | 必须明确SLA和赔偿 |
| 14 | 用公开数据集测试 | 测试数据错误 | 必须用生产同分布数据 |
| 15 | 不约定模型更新机制 | 长期风险 | 必须明确版本和更新 |

---

## 8. 固定输出格式

### 8.1 AI项目验收标准模板

```markdown
# [项目名称]验收标准

## 一、项目基本信息
- 项目名称：
- 甲方：
- 乙方：
- 验收日期：
- 验收版本：

## 二、功能维度
### 2.1 功能清单
| 序号 | 功能名称 | 功能描述 | 优先级 | 验收标准 |
|------|----------|----------|--------|----------|
| 1 | | | | |

### 2.2 功能测试结果
| 功能 | 测试用例数 | 通过数 | 通过率 | 结果 |
|------|------------|--------|--------|------|
| | | | | |

## 三、性能维度
| 指标 | 标准值 | 实测值 | 结果 |
|------|--------|--------|------|
| | | | |

## 四、安全维度
| 检查项 | 标准 | 结果 |
|--------|------|------|
| | | |

## 五、体验维度
| 指标 | 标准 | 结果 |
|------|------|------|
| | | |

## 六、验收结论
- [ ] 通过验收
- [ ] 有条件通过（遗留问题见附件）
- [ ] 不通过验收

验收签字：
甲方：              日期：
乙方：              日期：

8.2 复盘报告模板（GRAI框架）

# [项目名称]复盘报告

## 一、目标回顾（G）
### 1.1 项目目标
- 业务目标：
- 技术目标：
- 交付目标：

### 1.2 验收标准回顾
| 维度 | 标准 | 权重 |
|------|------|------|
| 功能 | | |
| 性能 | | |
| 安全 | | |

## 二、结果评估（R）
### 2.1 实际交付结果
| 指标 | 目标值 | 实际值 | 偏差 | 偏差率 |
|------|--------|--------|------|--------|
| | | | | |

### 2.2 偏差分析
| 偏差项 | 偏差描述 | 影响程度 |
|--------|----------|----------|
| | | |

## 三、分析洞见（A）
### 3.1 成功因素
1.
2.

### 3.2 问题根因分析
| 问题 | 根因（5Why） | 责任归属 |
|------|--------------|----------|
| | | |

### 3.3 经验教训
1.
2.

## 四、行动改进（I）
### 4.1 本次行动项
| 行动项 | 负责人 | 完成时间 | 验证方式 |
|--------|--------|----------|----------|
| | | | |

### 4.2 下次项目改进
1.
2.

### 4.3 知识沉淀
- 可复用的模板/工具：
- 需要培训的知识点：

8.3 收费模型方案模板

# AI项目收费模型方案

## 一、项目基本信息
- 项目名称：
- 服务内容：
- 预计用量：
- 合同期限：

## 二、收费模式对比

| 模式 | 适用场景 | 优势 | 劣势 | 推荐度 |
|------|----------|------|------|--------|
| 按调用量 | 用量波动大 | 成本透明 | 收入不稳定 | |
| 按效果 | 效果可量化 | 价值对齐 | 定义复杂 | |
| 按订阅 | 稳定服务 | 收入可预测 | 效果风险 | |

## 三、推荐方案

### 3.1 模式选择
推荐模式：
选择理由：

### 3.2 详细计费规则
| 项目 | 说明 |
|------|------|
| 计费单位 | |
| 单价 | |
| 计量方式 | |
| 结算周期 | |
| 保底消费 | |
| 封顶限制 | |

### 3.3 价格调整机制
| 触发条件 | 调整方式 | 协商期限 |
|----------|----------|----------|
| | | |

### 3.4 特殊场景计费
- 免费额度：
- 超额计费：
- 优惠折扣：

## 四、风险提示
1.
2.

9. 降级兜底机制

9.1 场景一：用户无法提供完整项目信息

触发条件：用户只提供模糊需求，无法提供详细的项目背景、目标、约束等

降级策略：

引导式补充：通过5个关键问题引导用户补充信息
- 项目类型是什么？
- 主要解决什么问题？
- 有什么具体的量化目标？
- 有历史数据或参考项目吗？
- 有什么特殊约束（预算、时间、合规）？
通用模板输出：即使信息不全，也提供通用的验收标准模板，让用户根据实际情况填充
分阶段交付：先输出框架，用户补充信息后再完善细节

9.2 场景二：涉及专业法律/合规领域

触发条件：用户询问具体的合同条款是否合规、是否需要增加某些法律条款

降级策略：

免责声明：明确说明本技能不提供法律建议
框架提供：提供合同条款的框架和考虑因素
专业建议：建议用户咨询专业律师进行法律审核

9.3 场景三：特定行业/领域的专业评估

触发条件：涉及医疗、金融、安全等高风险领域的AI应用评估

降级策略：

风险提示：明确指出该领域需要额外的专业评估
清单补充：提供该领域特有的检查清单（如医疗AI的特殊安全检查）
专业合作：建议用户寻求该领域的专业机构进行评估

10. 用户说明

10.1 适用人群

主要用户：

甲方项目经理：负责AI项目的采购、验收、交付管理
乙方交付负责人：负责AI项目的交付标准设定、验收文档准备
企业AI负责人：负责企业AI项目的整体管理和价值评估
采购/财务人员：需要评估AI项目的投入产出和计费合理性

次要用户：

法务人员：需要审核AI项目合同条款
技术人员：需要了解AI项目的验收标准和技术要求
业务人员：需要参与AI项目的业务验收和效果评估

10.2 使用方法

方法一：按流程使用 按照六大功能模块的顺序，依次使用：

项目启动前 → 使用「交付标准定义」
合同签订前 → 使用「风险与争议预判」+「收费模型设计」
验收测试前 → 使用「验收测试用例生成」
交付前 → 使用「交付物检查清单」
项目结束后 → 使用「复盘报告生成」

方法二：按需使用 根据当前任务直接使用对应功能模块：

"帮我定义这个AI客服项目的验收标准"
"帮我看看这份AI合同有什么风险点"
"帮我设计一个按效果付费的收费模型"

方法三：综合使用 提交完整的项目背景信息，一次性获取全套交付文档

10.3 边界与局限性

本技能可以：

✅ 提供验收标准框架和模板
✅ 生成可执行的测试用例
✅ 预判常见风险并提供条款建议
✅ 生成复盘报告和收费方案
✅ 提供检查清单和操作指引

本技能不能：

❌ 提供具有法律效力的合同文本
❌ 替代专业的技术评估和安全审计
❌ 保证AI项目一定成功或达到预期效果
❌ 预测所有可能的异常情况和风险
❌ 提供涉及人身安全、医疗诊断等专业领域的具体建议

建议配合使用：

专业法律咨询：合同条款审核
专业安全评估：高风险AI系统的安全测试
专业性能测试：复杂的性能基准测试
专业数据审计：数据合规性评估

11. 案例沉淀机制

11.1 归档格式

每个完成的案例建议按以下格式归档：

# [案例编号]-[项目简称]

## 基本信息
- 行业：
- 项目类型：
- 项目规模：
- 完成时间：
- 案例价值标签：#智能客服 #OCR识别 #推荐系统

## 项目背景
- 业务场景：
- 痛点问题：
- 预期目标：

## 交付标准摘要
### 功能维度
### 性能维度
### 安全维度
### 体验维度

## 关键风险点
1.
2.

## 最终验收结果
- 通过率：
- 遗留问题：
- 客户满意度：

## 复盘总结
### 成功经验：
### 改进教训：

## 相关文档
- 验收标准模板：
- 测试用例集：
- 复盘报告：

## 适用场景说明
本案例适用于：
- 类似项目：
- 可参考模块：

11.2 应用方式

新项目启动时：

在案例库中搜索相似项目
参考其验收标准和风险点
复用经过验证的模板和检查清单

案例库结构建议：

案例库/
├── 按行业分类/
│   ├── 电商零售/
│   ├── 金融保险/
│   ├── 医疗健康/
│   ├── 制造业/
│   └── 其他/
├── 按项目类型分类/
│   ├── 智能客服/
│   ├── OCR识别/
│   ├── 推荐系统/
│   ├── 风控模型/
│   └── 其他AI应用/
└── 按项目阶段分类/
    ├── 验收标准案例/
    ├── 风险预判案例/
    ├── 测试用例案例/
    └── 复盘报告案例/

11.3 维护机制

季度更新：

每季度回顾高价值案例
更新验收标准和检查清单
补充新的风险点和最佳实践

知识迭代：

沉淀成功项目的关键经验
总结失败项目的教训
提炼可复用的模板和工具

团队共享：

在团队内部共享案例库
定期组织案例学习
建立案例评审机制

附录

A. 术语表

术语	定义
P50/P95/P99	百分位数，表示XX%的请求响应时间低于该值
SLA	Service Level Agreement，服务水平协议
AI幻觉	AI模型生成看似合理但实际错误的内容
拒答率	AI系统选择不回答的 query 占比
数据漂移	生产数据分布与训练数据分布发生变化

B. 参考标准

ISO/IEC 24027：人工智能 - 偏见与公平性
ISO/IEC 42001：人工智能 - 管理体系
NIST AI Risk Management Framework
GDPR（通用数据保护条例）

C. 免责声明

本技能提供的验收标准、测试用例、合同条款建议等均为参考模板，不构成法律建议。涉及具体合同条款的制定和审核，请咨询专业律师。涉及高风险AI系统的评估和审计，请委托专业机构进行。

版本：V1.0
更新日期：2024年
维护团队：LeanEdge AI运营实战派
联系方式：如有问题，请通过主Agent反馈

Usage Guidance

Reasonable to install if you want structured AI project acceptance and delivery templates. Treat generated contract language as a starting point only, involve legal or security specialists for regulated or high-risk projects, and avoid pasting unnecessary sensitive business data into prompts.

Capability Assessment

✓ Purpose & Capability

The stated purpose is to help define AI project acceptance standards, test cases, delivery checklists, risk reviews, retrospectives, and pricing models; the artifact content consistently supports that advisory/template role.

✓ Instruction Scope

Instructions are scoped to generating frameworks, checklists, contract-clause suggestions, and warnings; legal and high-risk domain limits are disclosed.

✓ Install Mechanism

The package contains only a single SKILL.md file and no scripts, dependencies, executable files, or install-time actions.

✓ Credentials

No artifact instructions require local file access, credentials, network access, broad indexing, mutation of user systems, or external data transfer.

ℹ Persistence & Privilege

The skill suggests maintaining a case library as a business practice, but does not instruct the agent to create persistent background storage, run workers, escalate privileges, or retain data automatically.

How to Use

Make sure OpenClaw is installed (local or Docker)
Run the install command in chat: /install leangedge-ai-delivery-officer
After installation, invoke the skill by name or use /leangedge-ai-delivery-officer
Provide required inputs per the skill's parameter spec and get structured output

Version History

v1.0.0

Initial LeanEdge 5.0 release

Metadata

Slug leangedge-ai-delivery-officer

Version 1.0.0

License MIT-0

All-time Installs 0

Active Installs 0

Total Versions 1

Frequently Asked Questions

What is leangedge-ai-delivery-officer?

帮助企业制定量化AI项目交付验收标准，生成测试用例和核验清单，预判风险，完成复盘报告，设计收费模型。 It is an AI Agent Skill for Claude Code / OpenClaw, with 37 downloads so far.

How do I install leangedge-ai-delivery-officer?

Run "/install leangedge-ai-delivery-officer" in the OpenClaw or Claude Code chat to install it in one step — no extra setup required.

Is leangedge-ai-delivery-officer free?

Yes, leangedge-ai-delivery-officer is completely free, licensed under MIT-0. You can download, install and use it at no cost.

Which platforms does leangedge-ai-delivery-officer support?

leangedge-ai-delivery-officer is cross-platform and runs anywhere OpenClaw / Claude Code is available (cross-platform).

Who created leangedge-ai-delivery-officer?

It is built and maintained by anjellorisldeweyst-max (@anjellorisldeweyst-max); the current version is v1.0.0.

More Skills

leangedge-ai-delivery-officer

LeanEdge AI项目交付官｜AI项目交付验收AI助手

品牌定位

1. 技能概述

1.1 核心定位

1.2 六大核心功能模块

1.3 适用场景

2. 铁律（8条核心原则）

铁律1：验收标准必须在项目启动前锁定

铁律2：交付物清单必须逐项核验

铁律3：测试用例必须覆盖正常/边界/异常场景

铁律4：性能指标必须区分P50/P95/P99

铁律5：AI能力评估必须区分场景和数据集

铁律6：合同必须明确数据归属和隐私条款

铁律7：复盘必须量化偏差并找出根本原因

铁律8：收费模型必须在项目开始前锁定

3. 禁止项（10条红线）

3.1 验收标准类禁止

3.2 交付物类禁止

3.3 风险类禁止

3.4 计费类禁止

4. 输出质量铁律

4.1 判断标准（5条）

4.2 输出禁止项（5条）

5. 详细示例

5.1 示例1：智能客服AI项目验收标准定义

5.2 示例2：AI模型风险预判与合同条款建议

8.2 复盘报告模板（GRAI框架）

8.3 收费模型方案模板

9. 降级兜底机制

9.1 场景一：用户无法提供完整项目信息

9.2 场景二：涉及专业法律/合规领域

9.3 场景三：特定行业/领域的专业评估

10. 用户说明

10.1 适用人群

10.2 使用方法

10.3 边界与局限性

11. 案例沉淀机制

11.1 归档格式

11.2 应用方式

11.3 维护机制

附录

A. 术语表

B. 参考标准

C. 免责声明

What is leangedge-ai-delivery-officer?

How do I install leangedge-ai-delivery-officer?

Is leangedge-ai-delivery-officer free?

Which platforms does leangedge-ai-delivery-officer support?

Who created leangedge-ai-delivery-officer?

💬 Comments