OmniParser提取小红书数据
随着基于视觉的基础模型不断成熟、功能和可访问性不断提高,它们有望在 2025 年成为主流。最近,Claude 的计算机界面和 AutoGLM 等突破性技术已显示出与屏幕内容交互的非凡能力,模仿人类导航和任务完成。这些进步表明,未来用户可以自动执行任务(例如订购食物、查看旅行计划或填写表格),而无需特定于平台的 API,这要归功于强大的视觉识别和推理能力。
今天,我将使用 Microsoft 最新的视觉模型 Omniparse 探索这项技术的潜在应用。Omniparse 可以直观地解释计算机屏幕,识别可点击元素并以结构化格式提取信息。通过将 Omniparse 基于视觉的理解与语言模型 (LLM) 相结合,它可以成为 RPA 的可行替代方案,用于复杂的 Web 抓取,类似于 AgentQL 的功能。让我们深入了解它的工作原理及其潜在应用。
1、OmniParser环境搭建
首先,按照 Powershell 或 SSH 中的所有命令,它将在 conda 环境“omni”中安装所有基础包:
git clone https://github.com/microsoft/OmniParser.git
python weights/convert_safetensor_to_pt.py
conda create -n "omni" python==3.12
conda activate omni
cd OmniParser
pip install -r requirements.txt
之后,需要下载 HuggingFace 上OmniParser中的所有模型,这些模型在文件夹 OmniParser\weights
中以精确的文件结构突出显示:
下载完成后,通常需要相当长的时间,因为模型文件非常大。你必须在 Omniparse 目录中使用以下命令转换模型文件:
python weights/convert_safetensor_to_pt.py
完成这些步骤后,就可以运行演示了:
python gradio_demo.py
打开浏览器 http://127.0.0.1:7861/
开始测试。界面中的阈值设置可以控制元素重叠,但我将其保留为默认值。
启动演示后,你可以上传任何计算机屏幕进行试用。box threshold 设置控制包围框重叠的阈值。我将其保留为默认值:
开始解析。我使用的是带有 4060 显卡的笔记本电脑,一次复杂的解析大约需要 100 秒,速度非常快。然后它可以给我一个屏幕上所有元素的列表。包括猜测可能点击操作的按钮。
2、用社交媒体截屏测试 Omniparse
我的目标是评估 Omniparse 识别和提取中文社交平台小红书上信息的能力。这个平台经常与 TikTok 进行比较,已成为中国消费者获取专业内容和搜索功能的首选来源。在一个项目中,我的目标是自动化 KOL(关键意见领袖)研究,我们会分析影响者的个人信息和帖子指标,以帮助品牌决策。
通过将小红书屏幕截图输入 Omniparse,该模型确定了关键元素,例如 KOL 介绍、帖子标题和点赞数。虽然该模型成功地突出了这些元素,但它目前缺乏本地中文支持—未来的迭代可能会解决这个问题。
3、最后的想法和未来的潜力
随着 ChatGPT-4V 等先进视觉模型的出现,Omniparse 等特定于任务的应用程序显示出巨大的潜力。该模型识别页面上的元素并推断其功能的能力令人印象深刻,但提高元素检测和含义提取的准确性将是必不可少的。随着进一步的发展和浏览器集成,Omniparse 可以发展成为自主代理进行有针对性研究的强大工具。我期待看到这个领域如何发展。
总而言之,我们都看到已经有很多视觉模型,例如 ChatGPT-4V。特定任务的能力需要进一步的模型训练,例如 Microsoft Omniparse。框数据的准确性及其含义有待升级。在未来,随着浏览器的进一步集成,它可以完成与 Claude Computer 类似的工作,我可能会使用它为特定研究目标构建自主代理,方法是为代理提供浏览器。让我们期待这一点。
原文链接:Exploring Vision Models for Chinese Social Platform Data Extraction with Microsoft Omniparse
汇智网翻译整理,转载请标明出处