agentic_huge_data_base / wiki
页面 LightRAG · 1 总览·DeepWiki 中文全文译文

1 · 总览(Overview)

轻量图谱增强检索 · 本章是 LightRAG DeepWiki 中文译文的独立章节页,保留原始链接、源码锚点、模块标签和章节层级。

项目LightRAG 章节1 状态全文译文 模块安装与启动、界面与交互、系统架构、检索、召回与索引
源码线索
  • AGENTS.md
  • CLAUDE.md
  • README-zh.md
  • README.md
  • config.ini.example
  • lightrag/__init__.py
  • lightrag/api/__init__.py
  • scripts/test.sh
模块标签
  • 安装与启动
  • 界面与交互
  • 系统架构
  • 检索、召回与索引
  • 接口与服务契约

中文译文

LightRAG 总览(中文译文)

原始 DeepWiki 页面:https://deepwiki.com/HKUDS/LightRAG/1-lightrag-overview
翻译时间:2026-05-27T08:45:10.287Z
翻译模型:deepseek-chat
原文字符数:6245
项目:LightRAG (lightrag)

---

LightRAG 概述

相关源文件

以下文件被用作生成此 Wiki 页面的上下文:

  • .github/CONTRIBUTING.md
  • .github/workflows/copilot-setup-steps.yml
  • .github/workflows/docker-build-lite.yml
  • .github/workflows/docker-build-manual.yml
  • .github/workflows/docker-publish.yml
  • .github/workflows/linting.yaml
  • .github/workflows/pypi-publish.yml
  • .github/workflows/stale.yaml
  • .github/workflows/tests.yml
  • README-zh.md
  • README.md
  • lightrag/__init__.py
  • lightrag/_version.py
  • lightrag/api/__init__.py
  • tests/conftest.py

LightRAG 是一个"简单且快速"的检索增强生成(RAG)框架,旨在提升大语言模型(LLM)应用的准确性和效率 README.md:7-8。它通过采用同时管理知识图谱(KG)和向量嵌入向量的双层架构,弥合了传统基于向量的 RAG 与基于图的 RAG 之间的差距。

该系统专为可扩展性而设计,支持大规模数据集,即使使用开源大语言模型也能保持高提取精度 README.md:82-84

系统架构

LightRAG 编排多个子系统,将原始文档转换为结构化的、可查询的知识库。核心逻辑封装在 LightRAG 类中 lightrag/__init__.py:6

高层组件关系

下图说明了在自然语言和代码实体空间中主要子系统之间的交互方式。

图:子系统互联关系

graph TD
    subgraph "自然语言空间"
        DOCS["原始文档(PDF、DOCX、文本)"]
        QUERY["用户自然语言查询"]
        RESP["带引用的大语言模型响应"]
    end

    subgraph "代码实体空间(LightRAG 核心)"
        direction TB
        PIPELINE["_PipelineMixin (operate.py)"]
        LR_CLASS["class LightRAG (lightrag.py)"]
        EXTRACTOR["extract_entities (operate.py)"]
        RETRIEVER["kg_query (operate.py)"]

        subgraph "存储绑定"
            KV["BaseKVStorage"]
            VEC["BaseVectorStorage"]
            GRAPH["BaseGraphStorage"]
        end
    end

    DOCS --> PIPELINE
    PIPELINE --> EXTRACTOR
    EXTRACTOR --> GRAPH
    EXTRACTOR --> VEC

    QUERY --> RETRIEVER
    RETRIEVER --> GRAPH
    RETRIEVER --> VEC
    RETRIEVER --> KV
    RETRIEVER --> RESP

    LR_CLASS --> PIPELINE

来源: lightrag/lightrag.py, lightrag/operate.py, lightrag/__init__.py:24-38

关键能力

  • 双层检索: 结合基于图的遍历与向量相似性搜索,提供全面的上下文信息,支持 localglobalhybridmix 等查询模式 README.md:106-107
  • 多模态支持: 集成 RagAnything(MinerU/Docling),用于解析来自多种格式的文本、图像、表格和公式 README.md:77-78, 87-88
  • 角色特定配置: 允许为特定任务分配不同的大语言模型或提供商:EXTRACTQUERYKEYWORDSVLM README.md:79-80
  • 可插拔后端: 支持多种存储解决方案,包括 NetworkX、Neo4j、MongoDB、PostgreSQL(pgvector/AGE)、Milvus 和 OpenSearch README.md:80-81, 90-96
  • 生产就绪: 包含基于 FastAPI 的服务器(lightrag-server)、基于 React 的 Web 用户界面,以及通过 Langfuse 实现的全面可观测性 README.md:81-82, 94-95

子系统概述

1. 核心引擎与入库

该引擎处理文档片段切分(固定、递归、向量或段落语义切分),以及实体和关系的提取,以构建知识图谱 README.md:78-79

2. 检索与查询

LightRAG 实现了一套复杂的检索逻辑,用于管理跨实体和关系的 Token 预算。它支持引用功能,用于来源归属 README.md:89-90

3. 存储层

存储架构通过基类进行抽象,允许在本地基于文件的存储(JsonKV、NanoVectorDB)和分布式数据库之间无缝切换 README.md:80-81, 90-93

4. API 与用户界面

该系统提供 REST API,模拟 Ollama 的接口以兼容 Open WebUI 等工具,同时还提供专用的 Web 用户界面,用于图可视化和文档管理 README.md:94-95, 121-122

数据流:从文档到知识图谱

下图展示了数据从输入到代码库中定义的存储实体的转换过程。

图:数据入库流程

graph LR
    subgraph "输入"
        RAW["文档文件"]
    end

    subgraph "处理(operate.py)"
        CHUNKER["片段切分策略"]
        EXTRACT["extract_entities"]
        SUMMARY["_handle_entity_relation_summary"]
    end

    subgraph "存储(lightrag/storage/)"
        KV["JsonKVStorage"]
        VEC["NanoVectorDB"]
        GRAPH["NetworkXStorage / Neo4jStorage"]
    end

    RAW --> CHUNKER
    CHUNKER --> EXTRACT
    EXTRACT --> SUMMARY
    SUMMARY --> GRAPH
    EXTRACT --> VEC
    CHUNKER --> KV

来源: README.md:104-105, lightrag/lightrag.py, lightrag/operate.py

后续步骤

要开始使用 LightRAG,请参考以下章节:

来源: README.md:1-150, lightrag/_version.py:1-5