RAG 是把外部知识检索结果注入模型上下文的应用架构,适合处理私有知识库、企业文档、学习笔记和实时资料。 核心流程 文档切分 生成 embedding 写入向量索引 查询改写与召回 重排与上下文组装 生成答案并引用来源 关键问题 切分粒度太大,召回噪声会变多。 切分粒度太小,上下文可能丢失。 只做向量召回时,关键词和专有名词可能不稳定。 需要用评测集持续观察命中率、答案正确率和引用质量。 关联 大模型开发路线图 Agent