EasySpider命令行参数说明

一、命令行参数说明

当我们通过命令行执行EasySpider任务时,可以使用多个参数来控制任务的执行方式。以下是各个命令行参数的详细说明:

1. --id:任务执行ID

  • 描述: 用于指定要执行的任务ID。任务文件存储在execution_instances文件夹中。
  • 默认值: [0]
  • 示例: --id 42

2. --saved_file_name:保存文件名称

  • 描述: 指定保存结果文件的名称。如果不指定,则默认生成随机数作为文件名。
  • 默认值: 随机数
  • 示例: --saved_file_name result_data.json

3. --read_type:任务读取方式

  • 描述: 指定任务的读取方式:
    • remote:从服务器读取任务。
    • local:从本地execution_instances文件夹中直接读取任务的id.json文件。
  • 默认值: remote
  • 说明: 如果设置为local,可以在不启动EasySpider本体的情况下直接执行任务。
  • 示例: --read_type local

4. --server_address:服务器地址

  • 描述: 仅在--read_type设置为remote时有效,用于指定服务器地址。
  • 默认值: http://localhost:8074
  • 示例: --server_address http://myserver.com:8080

5. --user_data:是否带用户配置执行任务

  • 描述: 指定是否使用用户的浏览器配置来执行任务。
    • 1:带用户配置。
    • 0:不带用户配置(纯净浏览器)。
  • 默认值: 0
  • 示例: --user_data 1

6. --config_file_name:配置文件名称

  • 描述: 指定配置文件的名称。配置文件中的absolute_user_data_folder字段记录了用户的配置目录。
  • 默认值: config.json
  • 示例: --config_file_name custom_config.json

7. --config_folder:配置文件所在路径

  • 描述: 指定配置文件的路径。如果不指定,则默认为EasySpider的根目录。
  • 默认值: 空(即EasySpider根目录)
  • 示例: --config_folder /path/to/config/

8. --headless:是否以无头模式执行

  • 描述: 指定是否以无头模式(即不显示浏览器界面)运行任务。
    • 1:无头模式。
    • 0:显示浏览器界面。
  • 默认值: 0
  • 示例: --headless 1

9. --keyboard:是否监听键盘以实现暂停功能

  • 描述: 指定程序是否监听键盘输入来实现暂停功能。若不监听键盘,则程序无法暂停,非常适合在Debug模式下使用或程序执行完成后自动退出的情况。
    • 1:监听键盘。
    • 0:不监听键盘。
  • 默认值: 1
  • 适用版本: 0.5.0及以上
  • 示例: --keyboard 0

10. --pause_key:暂停/继续任务执行的键

  • 描述: 指定用于暂停/继续任务的键。在需要多开时,可以通过修改按键来分别控制不同任务。也可在保存任务窗口中修改此值。
  • 默认值: p
  • 适用版本: 0.6.0及以上
  • 示例: --pause_key q

11. --docker_driver:是否使用Docker执行

  • 描述: 指定是否使用Docker环境来执行任务,常用于Linux系统中。如果需要使用Docker执行,需指定Docker容器地址。
  • 默认值: 空(表示不使用Docker)
  • 示例: --docker_driver http://localhost:4444/wd/hub

二、示例命令

假设我们已经准备好任务ID为37的任务,并且希望以无头模式在本地执行,以下是示例命令:

    
bash
./EasySpider/resources/app/chrome_win64/easyspider_executestage.exe --id 37 --user_data 0 --server_address http://localhost:8074 --config_folder "D:/Documents/Projects/EasySpider/ElectronJS/" --headless 1 --read_type local --saved_file_name result.json

此命令的含义是:

  • 执行任务ID为37的任务;
  • 不带用户配置执行;
  • 使用本地任务数据(无需启动服务器);
  • 结果保存为result.json
  • 任务以无头模式运行(不显示浏览器界面)。

了解并合理使用EasySpider的命令行参数可以帮助我们更灵活、高效地完成任务。通过这些参数,我们可以控制任务的读取方式、是否使用用户配置、是否以无头模式运行以及如何保存结果等,充分适应各种不同的使用场景。

通过命令行执行EasySpider任务,可以实现更加自动化、定制化的抓取流程,极大提升工作效率。

阅读全文
AI工具教程
免费领取AI学习资料 进AI副业交流群
礼物
AI工具教程
免费领取AI学习资料 进AI副业交流群