词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!
| 来源 | 可选 — 通过 hermes skills install official/research/osint-investigation 安装 |
| 路径 | optional-skills/research/osint-investigation |
| 版本 | 0.1.0 |
| 作者 | Hermes Agent(改编自 ShinMegamiBoson/OpenPlanter,MIT 许可) |
| 平台 | linux, macos, windows |
| 标签 | osint, investigation, public-records, sec, sanctions, corporate-registry, property, courts, due-diligence, journalism |
| 相关 skill | domain-intel, arxiv |
web_search / web_extractdomain-intel skillarxiv skillsherlock skill(可选)terminal 工具运行脚本。SKILL_DIR 是存放此 SKILL.md 的目录。ls SKILL_DIR/references/sources/
# 联邦财务 / 监管
cat SKILL_DIR/references/sources/sec-edgar.md # 企业文件
cat SKILL_DIR/references/sources/usaspending.md # 联邦合同
cat SKILL_DIR/references/sources/senate-ld.md # 游说
cat SKILL_DIR/references/sources/ofac-sdn.md # 制裁
cat SKILL_DIR/references/sources/icij-offshore.md # 离岸泄露
# 身份 / 房产 / 诉讼 / 存档 / 新闻
cat SKILL_DIR/references/sources/nyc-acris.md # 纽约市房产记录
cat SKILL_DIR/references/sources/opencorporates.md # 全球企业注册信息
cat SKILL_DIR/references/sources/courtlistener.md # 法院记录(联邦 + 州)
cat SKILL_DIR/references/sources/wayback.md # Wayback Machine 存档
cat SKILL_DIR/references/sources/wikipedia.md # Wikipedia + Wikidata
cat SKILL_DIR/references/sources/gdelt.md # 全球新闻监控SKILL_DIR/scripts/ 中都有仅使用标准库的抓取脚本:SEC_USER_AGENT、SENATE_LDA_TOKEN、OPENCORPORATES_API_TOKEN、COURTLISTENER_TOKEN)。所有脚本会立即将 429 响应及上游配额消息呈现给用户,以便用户知道需要降速或提供密钥。| 层级 | 方法 | 置信度 |
|---|---|---|
exact | 去除后缀/标点后规范化字符串相等 | 高 |
fuzzy | 排序词元相等(词袋匹配) | 中 |
token_overlap | ≥60% 词元重叠,≥2 个共享词元,词元 ≥4 个字符 | 低 |
cross_links.csv 列:match_type, confidence, left_name, right_name, left_normalized, right_normalized, left_row, right_row。id, title, severity, confidence, summary, evidence[], sources[]。每个证据项指向来源 CSV 中的具体行。用户(或后续 agent)可以对照来源验证每项声明。match_type=fuzzy 表示"可能",而非"已确认"。fuzzy 匹配是线索,不是事实。scripts/ 中编写仅使用标准库的 fetch_<source>.py 脚本,输出标准化 CSV。在上方"何时使用"部分更新来源列表。entity_resolution.py 不使用外部模糊匹配库(无 rapidfuzz,无 jellyfish)。词袋匹配是此处的上限。如需 Levenshtein 距离、音译或音素匹配,请单独 pip 安装。timing_analysis.py 使用 Python 的 random 模块进行置换。如需可复现性,请传入 --seed N。fetch_*.py 脚本使用 urllib.request 并遵守 Retry-After 头。大量批量使用仍可能违反服务条款 — 请先阅读各来源的法律说明部分。