RAG 是把外部知识检索结果注入模型上下文的应用架构,适合处理私有知识库、企业文档、学习笔记和实时资料。

核心流程

  1. 文档切分
  2. 生成 embedding
  3. 写入向量索引
  4. 查询改写与召回
  5. 重排与上下文组装
  6. 生成答案并引用来源

关键问题

  • 切分粒度太大,召回噪声会变多。
  • 切分粒度太小,上下文可能丢失。
  • 只做向量召回时,关键词和专有名词可能不稳定。
  • 需要用评测集持续观察命中率、答案正确率和引用质量。

关联