MegaParse多模态文档解析库

LIBRARY Dec 8, 2024

MegaParse 是一款功能强大且用途广泛的解析器,可以轻松处理各种类型的文档。无论你处理的是文本、PDF、Powerpoint 演示文稿还是 Word 文档,MegaParse 都能满足你的需求。专注于在解析过程中不丢失信息。

1、MegaParse简介

MegaParse的主要特点:

  • 多功能解析器:MegaParse 是一款功能强大且用途广泛的解析器,可以轻松处理各种类型的文档。
  • 无信息丢失:专注于在解析过程中不丢失信息。
  • 快速高效:以速度和效率为核心进行设计。
  • 广泛的文件兼容性:支持文本、PDF、Powerpoint 演示文稿、Excel、CSV、Word 文档。
  • 开源:自由是美好的,MegaParse 也是如此。开源且免费使用。

MegaParse目支持:

  • 文件:✅ PDF ✅ Powerpoint ✅ Word
  • 内容:✅ 表格 ✅ 目录 ✅ 页眉 ✅ 页脚 ✅ 图片

点击这里查看MegaParse的演示视频。

2、MegaParse快速上手

首先使用pip安装:

pip install megaparse

然后设置环境:

  • 将你的 OpenAI 或 Anthropic API 密钥添加到 .env 文件
  • 在你的计算机上安装 poppler(图片和 PDF)
  • 在你的计算机上安装 tesseract(图片和 PDF)
  • 如果是Mac,你还需要安装 libmagic: brew install libmagic

下面的代码使用MegaParse的 UnstructuredParser 提取pdf文件内容并保存为markdown格式的文件:

from megaparse import MegaParse
from langchain_openai import ChatOpenAI
from megaparse.parser.unstructured_parser import UnstructuredParser

parser = UnstructuredParser()
megaparse = MegaParse(parser)
response = megaparse.load("./test.pdf")
print(response)
megaparse.save("./test.md")
启动多模态分析

将解析器更改为 MegaParseVision,即可启用多模态分析:

from megaparse import MegaParse
from langchain_openai import ChatOpenAI
from megaparse.parser.megaparse_vision import MegaParseVision

model = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY"))  # type: ignore
parser = MegaParseVision(model=model)
megaparse = MegaParse(parser)
response = megaparse.load("./test.pdf")
print(response)
megaparse.save("./test.md")

注意:MegaParse Vision 支持的模型是多模态模型,例如 claude 3.5、claude 4、gpt-4o 和 gpt-4。

使用LlamaParse增强效果

可选的,可以使用 LlamaParse 获得更好的结果。你需要在 Llama Cloud 上创建一个帐户并获取API 密钥,然后将解析器更改为 LlamaParser

from megaparse import MegaParse
from langchain_openai import ChatOpenAI
from megaparse.parser.llama_parser import LlamaParser

parser = LlamaParser(api_key = os.getenv("LLAMA_CLOUD_API_KEY"))
megaparse = MegaParse(parser)
response = megaparse.load("./test.pdf")
print(response)
megaparse.save("./test.md") #saves the last processed doc in md format
作为 API使用

MegaParse提供了一个 MakeFile,只需在项目的根目录中使用 make dev 即可启动。

有关不同API端点的更多信息,请参阅 localhost:8000/docs

3、基准测试

解析器 相似比
megaparse_vision 0.87
unstructured_with_check_table 0.77
unstructured 0.59
llama_parser 0.33

相似比的值越高越好。


原文链接:MegaParse - Your Parser for every type of documents

汇智网翻译整理,转载请标明出处

Tags