EasySpider教程
EasySpider命令行参数说明
一、命令行参数说明
当我们通过命令行执行EasySpider任务时,可以使用多个参数来控制任务的执行方式。以下是各个命令行参数的详细说明:
1. --id
:任务执行ID
- 描述: 用于指定要执行的任务ID。任务文件存储在
execution_instances
文件夹中。 - 默认值:
[0]
- 示例:
--id 42
2. --saved_file_name
:保存文件名称
- 描述: 指定保存结果文件的名称。如果不指定,则默认生成随机数作为文件名。
- 默认值: 随机数
- 示例:
--saved_file_name result_data.json
3. --read_type
:任务读取方式
- 描述: 指定任务的读取方式:
remote
:从服务器读取任务。local
:从本地execution_instances
文件夹中直接读取任务的id.json
文件。
- 默认值:
remote
- 说明: 如果设置为
local
,可以在不启动EasySpider本体的情况下直接执行任务。 - 示例:
--read_type local
4. --server_address
:服务器地址
- 描述: 仅在
--read_type
设置为remote
时有效,用于指定服务器地址。 - 默认值:
http://localhost:8074
- 示例:
--server_address http://myserver.com:8080
5. --user_data
:是否带用户配置执行任务
- 描述: 指定是否使用用户的浏览器配置来执行任务。
1
:带用户配置。0
:不带用户配置(纯净浏览器)。
- 默认值:
0
- 示例:
--user_data 1
6. --config_file_name
:配置文件名称
- 描述: 指定配置文件的名称。配置文件中的
absolute_user_data_folder
字段记录了用户的配置目录。 - 默认值:
config.json
- 示例:
--config_file_name custom_config.json
7. --config_folder
:配置文件所在路径
- 描述: 指定配置文件的路径。如果不指定,则默认为EasySpider的根目录。
- 默认值: 空(即EasySpider根目录)
- 示例:
--config_folder /path/to/config/
8. --headless
:是否以无头模式执行
- 描述: 指定是否以无头模式(即不显示浏览器界面)运行任务。
1
:无头模式。0
:显示浏览器界面。
- 默认值:
0
- 示例:
--headless 1
9. --keyboard
:是否监听键盘以实现暂停功能
- 描述: 指定程序是否监听键盘输入来实现暂停功能。若不监听键盘,则程序无法暂停,非常适合在Debug模式下使用或程序执行完成后自动退出的情况。
1
:监听键盘。0
:不监听键盘。
- 默认值:
1
- 适用版本: 0.5.0及以上
- 示例:
--keyboard 0
10. --pause_key
:暂停/继续任务执行的键
- 描述: 指定用于暂停/继续任务的键。在需要多开时,可以通过修改按键来分别控制不同任务。也可在保存任务窗口中修改此值。
- 默认值:
p
- 适用版本: 0.6.0及以上
- 示例:
--pause_key q
11. --docker_driver
:是否使用Docker执行
- 描述: 指定是否使用Docker环境来执行任务,常用于Linux系统中。如果需要使用Docker执行,需指定Docker容器地址。
- 默认值: 空(表示不使用Docker)
- 示例:
--docker_driver http://localhost:4444/wd/hub
二、示例命令
假设我们已经准备好任务ID为37
的任务,并且希望以无头模式在本地执行,以下是示例命令:
bash
./EasySpider/resources/app/chrome_win64/easyspider_executestage.exe --id 37 --user_data 0 --server_address http://localhost:8074 --config_folder "D:/Documents/Projects/EasySpider/ElectronJS/" --headless 1 --read_type local --saved_file_name result.json
此命令的含义是:
- 执行任务ID为
37
的任务; - 不带用户配置执行;
- 使用本地任务数据(无需启动服务器);
- 结果保存为
result.json
; - 任务以无头模式运行(不显示浏览器界面)。
了解并合理使用EasySpider的命令行参数可以帮助我们更灵活、高效地完成任务。通过这些参数,我们可以控制任务的读取方式、是否使用用户配置、是否以无头模式运行以及如何保存结果等,充分适应各种不同的使用场景。
通过命令行执行EasySpider任务,可以实现更加自动化、定制化的抓取流程,极大提升工作效率。
阅读全文
×
初次访问:反爬虫,人机识别