MegaParse多模态文档解析库
MegaParse 是一款功能强大且用途广泛的解析器,可以轻松处理各种类型的文档。无论你处理的是文本、PDF、Powerpoint 演示文稿还是 Word 文档,MegaParse 都能满足你的需求。专注于在解析过程中不丢失信息。
1、MegaParse简介
MegaParse的主要特点:
- 多功能解析器:MegaParse 是一款功能强大且用途广泛的解析器,可以轻松处理各种类型的文档。
- 无信息丢失:专注于在解析过程中不丢失信息。
- 快速高效:以速度和效率为核心进行设计。
- 广泛的文件兼容性:支持文本、PDF、Powerpoint 演示文稿、Excel、CSV、Word 文档。
- 开源:自由是美好的,MegaParse 也是如此。开源且免费使用。
MegaParse目支持:
- 文件:✅ PDF ✅ Powerpoint ✅ Word
- 内容:✅ 表格 ✅ 目录 ✅ 页眉 ✅ 页脚 ✅ 图片
点击这里查看MegaParse的演示视频。
2、MegaParse快速上手
首先使用pip安装:
pip install megaparse
然后设置环境:
- 将你的 OpenAI 或 Anthropic API 密钥添加到
.env
文件 - 在你的计算机上安装 poppler(图片和 PDF)
- 在你的计算机上安装 tesseract(图片和 PDF)
- 如果是Mac,你还需要安装 libmagic:
brew install libmagic
下面的代码使用MegaParse的 UnstructuredParser
提取pdf文件内容并保存为markdown格式的文件:
from megaparse import MegaParse
from langchain_openai import ChatOpenAI
from megaparse.parser.unstructured_parser import UnstructuredParser
parser = UnstructuredParser()
megaparse = MegaParse(parser)
response = megaparse.load("./test.pdf")
print(response)
megaparse.save("./test.md")
启动多模态分析
将解析器更改为 MegaParseVision
,即可启用多模态分析:
from megaparse import MegaParse
from langchain_openai import ChatOpenAI
from megaparse.parser.megaparse_vision import MegaParseVision
model = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY")) # type: ignore
parser = MegaParseVision(model=model)
megaparse = MegaParse(parser)
response = megaparse.load("./test.pdf")
print(response)
megaparse.save("./test.md")
注意:MegaParse Vision 支持的模型是多模态模型,例如 claude 3.5、claude 4、gpt-4o 和 gpt-4。
使用LlamaParse增强效果
可选的,可以使用 LlamaParse 获得更好的结果。你需要在 Llama Cloud 上创建一个帐户并获取API 密钥,然后将解析器更改为 LlamaParser
:
from megaparse import MegaParse
from langchain_openai import ChatOpenAI
from megaparse.parser.llama_parser import LlamaParser
parser = LlamaParser(api_key = os.getenv("LLAMA_CLOUD_API_KEY"))
megaparse = MegaParse(parser)
response = megaparse.load("./test.pdf")
print(response)
megaparse.save("./test.md") #saves the last processed doc in md format
作为 API使用
MegaParse提供了一个 MakeFile
,只需在项目的根目录中使用 make dev
即可启动。
有关不同API端点的更多信息,请参阅 localhost:8000/docs
!
3、基准测试
解析器 | 相似比 |
---|---|
megaparse_vision | 0.87 |
unstructured_with_check_table | 0.77 |
unstructured | 0.59 |
llama_parser | 0.33 |
相似比的值越高越好。
原文链接:MegaParse - Your Parser for every type of documents
汇智网翻译整理,转载请标明出处