advanced 系列: AI x Binary

RAG 在恶意样本笔记检索中的最小原型

用结构化 chunk + 标签索引,实现样本分析笔记的可检索闭环。

pythonembeddingssqlite

先做最小系统,不碰复杂编排。

数据结构

把每条笔记拆成统一结构:

{
  "sample_id": "sha256:xxxx",
  "family": "agent_tesla",
  "behavior": ["registry", "http_c2"],
  "evidence": "CreateKeyExA + WinINet sequence",
  "source": "analysis_note_2026_02_10"
}

检索目标

  • 输入一段行为特征,返回历史样本和证据链。
  • 检索结果要带置信分和原始来源链接。

关键结论

RAG 的核心价值不在“回答”,而在“让已有分析结果可复用、可追踪”。