八爪鱼RPA教程_noView
八爪鱼RPA教程
指令

数据采集:如何通过智能和精准采集快速提取网页数据

在网页自动化操作中,数据采集是非常重要的一部分。无论是表格数据、列表数据,还是商品信息和评论,都可以通过【数据采集】指令实现快速提取。该指令支持智能采集和精准采集两种模式,可以根据不同需求选择最合适的方式。接下来我们详细介绍该功能的使用场景与操作方法。

1. 智能采集模式

使用场景
智能采集模式适用于大部分采集场景,特别是当你需要一键采集网页中的表格或列表数据时,比如电商网站的商品列表、评论等。

rpa_tutorial_octopus_instruct_DA_1
rpa_tutorial_octopus_instruct_DA_2

操作步骤

  • 打开需要采集的网页并将其窗口置于前台。
  • 使用【数据采集】指令,按住 Ctrl 并点击网页中的目标数据。红色表示预选中的区域,绿色表示已选定的数据区域。
    rpa_tutorial_octopus_instruct_DA_3
  • 系统会自动捕获选中的数据,并显示数据预览。

特点
智能采集模式无需手动设置过多的参数,适合需要快速采集的场景,但有时可能会采集到一些冗余数据。

2. 精准采集模式

使用场景
当智能采集的数据不符合你的需求,或者采集到了过多的无关数据时,可以切换到精准采集模式。该模式允许你通过 Ctrl+点击 精确选择目标数据,每次增加一列,确保数据更精准。
rpa_tutorial_octopus_instruct_DA_4

操作步骤

  • 在数据预览界面,点击“精准采集”,这会清空原始采集的数据。
  • 使用 Ctrl+点击 选择想要采集的目标数据,系统会自动将这些数据添加到预览中,每点击一次增加一列。

特点
精准采集模式可以更好地控制采集内容,适合对数据质量要求较高的场景。

3. 采集数据的处理与导出

采集完成后,你可以对数据进行以下操作:

  • 重命名表头:双击表头即可进行重命名,注意表头不能重复。
    rpa_tutorial_octopus_instruct_DA_5
  • 编辑列元素:可以手动编辑每一列元素的XPath路径,修改元素的定位方式,确保采集数据的准确性。
    rpa_tutorial_octopus_instruct_DA_6
  • 复制、移动列:你可以通过拖拽调整列的位置,或复制列数据。
    rpa_tutorial_octopus_instruct_DA_7
  • 提取其他属性:除了采集文本内容,还可以提取其他属性,如链接文本、图片地址、innerHTML、outerHTML等。
  • 去重:根据需要,可以选择按某些字段对采集数据进行去重,避免重复数据行。
  • 格式化处理:采集的数据还可以进行格式化处理,包括添加前缀、后缀、时间格式化、正则匹配等。

采集的数据可以保存到以下两种位置:

  • 数据表格:将数据保存为内置的数据表格变量,用于进一步操作。
  • Excel文件:可以选择导出到Excel文件中,并设置表头和sheet页。

4. 翻页与滚动加载的处理

如果网页有多页数据,或者使用懒加载(瀑布流)方式加载内容,系统也提供了翻页和滚动加载的设置:

  • 翻页方式:可以设置翻页按钮或加载更多按钮,并支持模拟人工点击。
  • 滚动区域与滚动方式:可以选择滚动整个页面或指定区域,并设置是滚动到底部还是按屏滚动。
  • 翻页间隔时间:用于防止页面加载过快而导致数据采集不完整,或触发防采集机制。

5. 使用示例

以下是一个完整的操作流程:

  1. 打开网页:使用【打开网页】指令,进入目标网站,例如博客园。

  2. 智能或精准采集:使用【数据采集】指令,采集网页中的文章标题、简介等数据。可以选择使用智能采集一键获取数据,或切换到精准采集模式,逐步选定每一列的数据。

  3. 数据导出:采集完成后,选择导出到Excel文件,并设置文件路径和表头信息。

    rpa_tutorial_octopus_instruct_DA_8

我的感受

感觉嘛,【数据采集】指令真的是为那些需要批量抓取网页数据的人提供了极大的便利。智能采集简单快捷,而精准采集则给了我们更灵活的控制权,让数据采集的质量更加可靠。在我看来,这两种采集模式的结合,能够应对各种复杂的网页数据场景,无论是简单的表格还是复杂的列表,都能轻松搞定。

阅读全文
AI工具教程
免费领取AI学习资料 进AI副业交流群
礼物
AI工具教程
免费领取AI学习资料 进AI副业交流群