如何从文本中批量提取邮件地址

2026-04-09 · 5 分钟阅读

提取邮件地址的常见场景

需要从文本中提取邮件地址的场景很多：从导出的 CRM 数据或旧文档中恢复联系人列表；从网页爬取的原始 HTML 中提取联系邮箱；整理会议记录中提到的多个联系人邮箱；从发票或合同文本中提取供应商联系方式；分析代码文件中的开发者联系信息。

邮件地址的正则表达式

邮件地址的标准正则表达式是一个经典计算机科学问题，完全符合 RFC 5322 标准的正则极其复杂。对于实际使用，以下简化版本可以捕获 99% 以上的常见邮件地址：

# Python
import re
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
emails = re.findall(pattern, text)

# JavaScript
const pattern = /\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b/g;
const emails = text.match(pattern) || [];

正则表达式的局限性

即使是精心设计的正则表达式也会有漏网之鱼和误识别：新型顶级域名（.academy、.photography 等长域名）如果正则只允许 2-4 字符的 TLD 就会漏掉；图片或 PDF 中的文本无法用正则提取，需要 OCR；故意混淆的邮件地址（如 user at example dot com）无法被标准正则识别；HTML 编码的邮件地址（@被写为 @）需要先解码再提取。

提取后的清理工作

提取后的邮件列表通常还需要进一步清理：去除重复邮件地址；标准化为小写（邮件地址的本地部分理论上区分大小写，但实践中通常不区分）；验证格式有效性（MX 记录检查）；删除明显的占位符地址（如 [email protected]、[email protected]）；检查是否包含内部或私密邮件地址（是否应当排除）。

命令行提取

# 使用 grep 提取邮件地址（macOS/Linux）
grep -oE '\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b' input.txt

# 提取并去重排序
grep -oE '\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b' input.txt | sort -u

法律合规注意事项

从文本中提取邮件地址并用于商业用途（如发送营销邮件）必须注意法律合规。根据 GDPR（欧盟）、CAN-SPAM（美国）、CASL（加拿大）等法规，向未明确同意接受营销邮件的地址发送邮件是违法的。未经授权爬取并使用网站上的邮件地址发送垃圾邮件，会面临高额罚款甚至刑事责任。提取邮件地址的合法场景通常限于整理你自己收到的邮件中的地址，或处理已明确同意的联系人数据。

邮件地址验证

提取后的邮件地址未必都是有效的。格式验证（正则表达式）只能验证格式是否符合规范，无法验证邮箱是否真实存在。更深层的验证需要：检查域名的 MX 记录是否存在（DNS 查询）；向地址发送验证邮件（最可靠但需要对方配合）。免费的邮件验证 API（如 Mailboxlayer、Abstract Email Validation）可以自动完成前两步。

立即免费使用相关工具

免费使用 →