Maxun无代码爬虫平台

Maxun是一个开源的无代码Web数据提取平台, 可以让你在 2 分钟内训练机器人并自动抓取网络数据。Web 数据提取再简单不过了!

1、Maxun是如何工作的?

Maxun 允许你创建模拟用户操作并提取数据的自定义机器人。机器人可以执行任何操作:捕获列表、捕获文本或捕获屏幕截图。一旦创建了机器人,它将继续为你提取数据,无需人工干预

Maxun的机器人操作包括:

  • 捕获列表:用于从网站中提取结构化和批量项目。示例:从亚马逊等网站抓取产品。
  • 捕获文本:用于从网站中提取单个文本内容。
  • 捕获截图:获取网站的全页或可见部分截图。

Maxun支持BYOP(自带代理),允许你连接外部代理以绕过反机器人保护。目前,代理是按用户分配的。很快你将能够为每个机器人配置代理。

Maxun的主要功能还包括:

  • 无需代码即可提取数据
  • 处理分页和滚动
  • 按照特定时间表运行机器人
  • 将网站转换为 API
  • 将网站转换为电子表格
  • 适应网站布局变化(即将推出)
  • 登录后提取,支持双因素身份验证(即将推出)
  • 集成(目前为 Google Sheet)

2、安装Maxun

Docker正在进行中。将于 EOD 前提供。

首先确保你的系统上安装了 Node.js、PostgreSQL、MinIO 和 Redis。

运行以下命令:

git clone https://github.com/getmaxun/maxun

# change directory to the project root
cd maxun

# install dependencies
npm install

# change directory to maxun-core to install dependencies
cd maxun-core 
npm install

# start frontend and backend together
npm run start

3、Maxun支持的环境变量

变量 必需 描述 如果未设置
NODE_ENV 定义应用环境(开发、生产)。 默认为开发。
JWT_SECRET 用于签署和验证 JSON Web 令牌 (JWT) 以进行身份​​验证的密钥。 JWT 身份验证将不起作用。
DB_NAME 要连接到的 Postgres 数据库的名称。 数据库连接将失败。
DB_USER Postgres 数据库身份验证的用户名。 数据库连接将失败。
DB_PASSWORD Postgres 数据库身份验证的密码。 数据库连接将失败。
DB_HOST Postgres 数据库服务器正在运行的主机地址。 数据库连接将失败。
DB_PORT 用于连接 Postgres 数据库服务器的端口号。 数据库连接将失败。
ENCRYPTION_KEY 用于加密敏感数据(代理、密码)的密钥。 加密功能将不起作用。
MINIO_ENDPOINT MinIO 的端点 URL,用于存储机器人运行截图。 与 MinIO 存储的连接将失败。
MINIO_PORT MinIO 服务的端口号。 与 MinIO 存储的连接将失败。
MINIO_ACCESS_KEY 使用 MinIO 进行身份验证的访问密钥。 MinIO 身份验证将失败。
GOOGLE_CLIENT_ID Google OAuth 的客户端 ID,用于 Google Sheet 集成身份验证。 Google 登录将不起作用。
GOOGLE_CLIENT_SECRET Google OAuth 的客户端密钥。 Google 登录将不起作用。
GOOGLE_REDIRECT_URI 用于处理 Google OAuth 响应的重定向 URI。 Google 登录将不起作用。
REDIS_HOST Redis 服务器的主机地址,由 BullMQ 用于调度机器人。 Redis 连接将失败。
REDIS_PORT Redis 服务器的端口号。 Redis 连接将失败。
MAXUN_TELEMETRY 禁用遥测以停止发送匿名使用数据。保持启用状态有助于我们了解产品的使用方式并评估任何新更改的影响。请保持启用状态。 不会收集遥测数据。

原文链接:Maxun: Open-Source No-Code Web Data Extraction Platform

汇智网翻译整理,转载请标明出处