Web Scraper:如何导出抓取到的数据

Web Scraper 提供了多种数据导出选项,支持将抓取到的数据导出为CSVXLSXJSON 格式。用户可以手动下载数据,也可以通过API或自动化工具将数据导出到云存储服务(如Dropbox、Google Sheets或Amazon S3)。此外,Web Scraper Cloud进一步增强了导出功能,支持更大规模的数据集处理。

数据导出方式

1. 从Web Scraper浏览器扩展导出数据

使用浏览器扩展时,你可以通过以下方式手动下载抓取的数据:

  • Sitemap菜单下选择“导出数据为CSV”。

  • 在抓取任务运行时也可以实时下载数据。

    rpa_tutorial_webscraper_cloud_data_export_1

注意:目前Web Scraper扩展仅支持CSVXLSX格式的导出,JSON格式将在未来的更新中加入。

2. 从Web Scraper Cloud导出数据

在Web Scraper Cloud中,你可以从任务Sitemap部分下载已抓取的数据。导出可以在抓取任务运行时或任务完成后进行,支持三种格式:CSVXLSXJSON

rpa_tutorial_webscraper_cloud_data_export_2

自动化数据导出

Web Scraper Cloud支持自动化数据导出,用户可以将抓取到的数据自动导出到以下云服务:

  • Dropbox
  • Google Sheets
  • Amazon S3

数据将被导出为CSV格式,自动保存到以下路径:

  • DropboxApps/Web Scraper
  • Google SheetsGoogle Drive/Web Scraper
  • S3bucket/web-scraper

通过API导出数据

Web Scraper Cloud还支持通过APICSVJSON格式下载抓取到的数据。这为开发人员提供了更灵活的方式来自动化数据下载和处理。

数据格式及限制

1. XLSX格式

  • 每个单元格中的字符数量限制为32767个字符,超过部分将被截断。

  • 每张表最多可以包含100万行数据。如果数据超过100万行,导出时将分成多个子表。

    rpa_tutorial_webscraper_cloud_data_export_3

2. JSON格式

  • JSON文件格式为每行一个JSON记录,行内的换行符将被转义为\n

  • 注意:文件并不是一个完整的JSON数组,每条记录是独立的。解析文件时应逐行读取,而不是一次性将整个文件作为JSON对象处理。

    rpa_tutorial_webscraper_cloud_data_export_4

3. CSV格式

CSV文件采用RFC 4180标准格式,具体特点如下:

  • 逗号分隔值,内容使用双引号包裹,双引号字符在文本中会被双倍转义为""

  • 行与行之间使用CR+LF (\r\n)作为分隔符。

  • CSV文件以BOM(字节顺序标记)U+FEFF字符开头,提示文件为UTF-8编码。

  • 注意:Microsoft Excel有时会错误解析标准的CSV文件,建议使用LibreOffice Calc打开CSV文件。

    rpa_tutorial_webscraper_cloud_data_export_5

使用Excel导入CSV文件

如果Microsoft Excel无法正确读取CSV文件,可以按照以下步骤导入数据:

  1. 新建一个空文件

  2. 在数据选项卡中,选择“从文本/CSV导入”。

  3. 选择CSV文件,设置导入选项为:UTF-8编码逗号分隔符不检测数据类型

    rpa_tutorial_webscraper_cloud_data_export_6

通过正确设置导入参数,可以避免数据格式错误或乱码问题。

最后感受

Web Scraper的多种数据导出功能 为用户提供了灵活、便捷的数据处理方式。无论是通过浏览器扩展手动导出,还是利用Web Scraper Cloud实现自动化导出,用户都可以根据需求选择合适的导出格式和方法。如果你需要处理大规模的数据集或希望实现数据导出的自动化,Web Scraper Cloud无疑是最佳选择!

阅读全文
AI工具教程
免费领取AI学习资料 进AI副业交流群
礼物
AI工具教程
免费领取AI学习资料 进AI副业交流群