LlamaIndex框架

event + workflow

现在市面上agent框架也是越来越多了，我们就拿网上被瑞平次数最多的LangGraph对比吧 LlamaIndex的一个优势就是大量使用了 Python 的 async/await 和装饰器（@step），写起来非常像在写普通的异步函数，而不是在配置复杂的图节点。另一个是事件之间是没有绝对的联系，在 LangGraph 中你通常需要预先定义好“边（Edges）”，但在 LlamaIndex Workflow 里，步骤之间甚至不需要互相知道对方的存在，它们只对特定的“事件类型”负责。

LlamaParse

LlamaIndex 在多年以前就是个高级RAG起家，因此在检索和文档处理方面有长期的经验积累

1. 真正的“Agentic OCR” (智能解析)

传统的解析器（如 PyMuPDF 或 Unstructured）是基于规则的：看到一行线就认为是表格，看到大号字体就认为是标题。这在处理复杂布局时经常翻车。

智能理解布局： LlamaParse 使用小规模多模态模型来“看”文档。它能理解多栏布局、页眉页脚的干扰，甚至能识别图片中的逻辑关系。

语义感知：它不仅仅提取文本，还能识别文档的分层结构（Hierarchy）。它知道哪个段落属于哪个标题，这对于后续 RAG 的精准检索至关重要。

2. 复杂对象的“降维打击” (表格、公式、图表)

这是 LlamaParse 与其他工具拉开差距的地方，也是 2026 年它最受好评的功能：

表格之王：它可以将极其复杂的跨页表格、嵌套表格完美转化为 Markdown 或 HTML。它不是把单元格拼凑起来，而是理解表格的逻辑意义。

公式与数学：它能将 PDF 中的复杂数学公式直接解析为 LaTeX 格式。

图表转代码：最神奇的地方在于，它能识别文档里的流程图、架构图，并尝试将其转化为 Mermaid 代码或详细的文字描述。

3. 生产级的“降本增效” (2026 新特性)

LlamaExtract： 2026 年推出的配套功能，能基于解析结果自动生成 Schema（架构），直接从非结构化文档中秒变结构化数据库。

多模式选择：提供“经济模式”和“Agentic 模式”。对于简单的文字 PDF，用极低成本处理；遇到扫描件或复杂研报，自动切换到高精度模式。

原生集成：它与 LlamaIndex 的 VectorStoreIndex 无缝衔接。解析出来的 Markdown 块自带 Metadata（元数据），检索准确率通常比普通解析高出 30%-50%。