八爪鱼RPA教程_noView
八爪鱼RPA教程
指令

网页字体加密数据采集:使用OCR识别轻松获取加密文字

在如今的互联网环境中,很多网站为了防止数据被轻易采集,常常会对网页上的文字进行“字体加密”处理。也就是说,虽然用户在网页上看到的是正常的文字,但当你尝试复制这些文字时,得到的却是一串乱码。这个时候,传统的采集方式已经无法满足需求,我们可以使用图片识别(OCR)技术来解决这个问题。

什么是字体加密?

字体加密是网站防止数据采集的一种常见方式,特别是大型网站经常使用这种手段来保护他们的重要信息。用户在浏览器上看到的文字,实际上是通过自定义的字体库进行加密的,浏览器只是根据这些字体库将字符“映射”成了看似正常的内容。

如果我们想要采集这些被加密的文字信息,比如像图中的价格数据,直接通过传统的抓取方式会发现,采集到的数据是乱码。这时我们可以借助OCR技术,通过图像识别的方式来提取出真实的文字。

rpa_tutorial_octopus_case_encryption_data_acquisition_1

如何通过八爪鱼RPA实现字体加密数据采集?

使用八爪鱼RPA结合Python的OCR库,我们可以非常轻松地实现对加密字体的文字内容进行识别。下面我们通过具体的流程讲解如何进行操作。

步骤1:配置OCR识别流程

首先,我们需要在八爪鱼RPA中配置OCR识别流程。在流程中,我们通过Python指令来运行OCR识别脚本,直接读取截图并识别其中的文字。

步骤2:运行Python脚本

在八爪鱼RPA中运行Python脚本指令时,我们可以选择使用本机的Python环境,因为本地环境下可能已经安装好常用的库,比如OCR库。RPA也自带了Python运行环境,但其中只包含基础库。如果你需要使用自定义库,可以选择使用本机环境。

下面是OCR识别的Python脚本代码示例:

    
import ddddocr

# 初始化OCR对象
det = ddddocr.DdddOcr(show_ad=False)

# 打开截图文件
with open(r'截图文件路径', 'rb') as f:
    image = f.read()

# 进行文字识别
res = det.classification(image)

# 输出识别结果
print(res)

步骤3:安装OCR库

要执行上述代码,我们需要在本机安装ddddocr库。你可以通过以下命令来安装它:

    
pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple

步骤4:使用OCR识别获取加密文字

在完成OCR库的安装并运行Python脚本后,八爪鱼RPA会自动读取截图并识别其中的加密文字,最终的识别结果会在控制台输出。例如,如果我们要识别网页上的价格信息,OCR会自动提取出这些价格,避免加密带来的困扰。

rpa_tutorial_octopus_case_encryption_data_acquisition_2

rpa_tutorial_octopus_case_encryption_data_acquisition_3

rpa_tutorial_octopus_case_encryption_data_acquisition_4

运行效果

当你配置好上述流程并运行Python脚本后,OCR识别会输出截图中的加密文字,效果如下所示:

    
识别结果:123.45

rpa_tutorial_octopus_case_encryption_data_acquisition_5

提示

  1. 如果你是首次使用八爪鱼RPA,可以从八爪鱼官网下载八爪鱼RPA客户端进行安装。
  2. 在配置流程时,如果选择使用本机Python环境,确保已经正确安装了所需的Python库和版本。

我的感觉是

使用八爪鱼RPA结合Python的OCR识别技术可以轻松解决网页字体加密数据采集的难题。特别是对于价格、用户信息等加密内容的提取,OCR识别提供了高效可靠的方式。如果你经常需要进行网页数据采集,不妨试试这个方法,极大地提升工作效率!

阅读全文
AI工具教程
免费领取AI学习资料 进AI副业交流群
礼物
AI工具教程
免费领取AI学习资料 进AI副业交流群