EasySpider获取html页面head标签里面的内容

在网页自动化任务中,获取HTML页面head标签中的内容(例如标题、关键词、URL等)是很常见的需求。然而,部分用户在使用XPath采集head标签内容时遇到了问题,例如通过@content的方式无法获取meta标签中的属性值。这可能是由于采集配置不当导致的。

一位用户尝试从https://www.1905.com/页面的<head>标签中获取标题、关键词和链接信息,使用的XPath如下:

  • 获取标题:/html/head/title
  • 获取关键词://meta[@name='keywords']/@content
  • 获取链接://meta[@property='og:url']/@content

在页面内手动测试时,这些XPath可以成功获取元素内容,但在任务运行时却无法获取到。

问题原因

项目维护者指出,采集meta标签属性值时,不能直接使用@content的方式来获取,而需要在任务设置中指定正确的采集方式,即通过元素的属性值来获取内容。

解决方案

以下是如何正确获取head标签中内容的操作步骤:

  1. 选择正确的采集内容类型

    • 在使用XPath采集属性时,比如meta标签的content属性,不能直接写成@content。相反,在设置采集任务时,需要选择采集内容类型为“元素的属性值”。
    • 在选择“元素的属性值”后,再指定要获取的属性名称,如content
  2. XPath示例

    • 获取标题/html/head/title
      • 这个XPath直接指向页面的标题,通常是有效的。
    • 获取关键词//meta[@name='keywords']
      • 在设置采集时,指定获取该元素的content属性值。
    • 获取链接//meta[@property='og:url']
      • 同样,采集时设置为获取该元素的content属性。
  3. 检查是否存在iframe
    如果无法采集到内容,可以检查目标页面是否包含iframe。如果目标元素在iframe内,需要先切换到iframe,然后才能正确获取其中的内容。

  4. 测试与验证
    在设置完采集任务后,使用页面开发者工具(F12)验证XPath是否能够正确定位目标元素,确保任务能够正常执行。

在自动化任务中,采集HTML页面head标签内的信息时,需要注意XPath的正确使用,尤其是采集属性值时,要选择合适的内容类型和属性名称。如果你也遇到类似问题,按照这些步骤调整采集设置,任务应该可以顺利获取到所需的信息。

阅读全文
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
付费
网盘拉新实战教程
每周花费一小时,手把手教你赚网盘平台佣金
立即查看
500人学过
限时优惠
AiPPT
结合最新AI技术,为用户提供一键生成高质量PPT的解决方案。
立即查看
一键生成 PPT
免费
豆包MarsCode
一款免费的AI编程助手,全新支持DeepSeek R1/V3、豆包大模型1.5自由切换,免部署、更准确、更强大!
立即查看
AI编程助手
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
DeepSeek企业微信码
免费领取DeepSeek资料