OmniParser提取小红书数据

随着基于视觉的基础模型不断成熟、功能和可访问性不断提高，它们有望在 2025 年成为主流。最近，Claude 的计算机界面和 AutoGLM 等突破性技术已显示出与屏幕内容交互的非凡能力，模仿人类导航和任务完成。这些进步表明，未来用户可以自动执行任务（例如订购食物、查看旅行计划或填写表格），而无需特定于平台的 API，这要归功于强大的视觉识别和推理能力。

今天，我将使用 Microsoft 最新的视觉模型 Omniparse 探索这项技术的潜在应用。Omniparse 可以直观地解释计算机屏幕，识别可点击元素并以结构化格式提取信息。通过将 Omniparse 基于视觉的理解与语言模型 (LLM) 相结合，它可以成为 RPA 的可行替代方案，用于复杂的 Web 抓取，类似于 AgentQL 的功能。让我们深入了解它的工作原理及其潜在应用。

1、OmniParser环境搭建

首先，按照 Powershell 或 SSH 中的所有命令，它将在 conda 环境“omni”中安装所有基础包：

git clone https://github.com/microsoft/OmniParser.git
python weights/convert_safetensor_to_pt.py
conda create -n "omni" python==3.12
conda activate omni
cd OmniParser
pip install -r requirements.txt

之后，需要下载 HuggingFace 上OmniParser中的所有模型，这些模型在文件夹 OmniParser\weights中以精确的文件结构突出显示：

下载完成后，通常需要相当长的时间，因为模型文件非常大。你必须在 Omniparse 目录中使用以下命令转换模型文件：

python weights/convert_safetensor_to_pt.py

完成这些步骤后，就可以运行演示了：

python gradio_demo.py

打开浏览器 http://127.0.0.1:7861/开始测试。界面中的阈值设置可以控制元素重叠，但我将其保留为默认值。

启动演示后，你可以上传任何计算机屏幕进行试用。box threshold 设置控制包围框重叠的阈值。我将其保留为默认值：

开始解析。我使用的是带有 4060 显卡的笔记本电脑，一次复杂的解析大约需要 100 秒，速度非常快。然后它可以给我一个屏幕上所有元素的列表。包括猜测可能点击操作的按钮。

2、用社交媒体截屏测试 Omniparse

我的目标是评估 Omniparse 识别和提取中文社交平台小红书上信息的能力。这个平台经常与 TikTok 进行比较，已成为中国消费者获取专业内容和搜索功能的首选来源。在一个项目中，我的目标是自动化 KOL（关键意见领袖）研究，我们会分析影响者的个人信息和帖子指标，以帮助品牌决策。

通过将小红书屏幕截图输入 Omniparse，该模型确定了关键元素，例如 KOL 介绍、帖子标题和点赞数。虽然该模型成功地突出了这些元素，但它目前缺乏本地中文支持—未来的迭代可能会解决这个问题。

3、最后的想法和未来的潜力

随着 ChatGPT-4V 等先进视觉模型的出现，Omniparse 等特定于任务的应用程序显示出巨大的潜力。该模型识别页面上的元素并推断其功能的能力令人印象深刻，但提高元素检测和含义提取的准确性将是必不可少的。随着进一步的发展和浏览器集成，Omniparse 可以发展成为自主代理进行有针对性研究的强大工具。我期待看到这个领域如何发展。

总而言之，我们都看到已经有很多视觉模型，例如 ChatGPT-4V。特定任务的能力需要进一步的模型训练，例如 Microsoft Omniparse。框数据的准确性及其含义有待升级。在未来，随着浏览器的进一步集成，它可以完成与 Claude Computer 类似的工作，我可能会使用它为特定研究目标构建自主代理，方法是为代理提供浏览器。让我们期待这一点。

原文链接：Exploring Vision Models for Chinese Social Platform Data Extraction with Microsoft Omniparse

汇智网翻译整理，转载请标明出处