2021-08-28-CR-004 Python爬虫用requests和lxml 解析网页，获取精美图片的链接

这个可以看做是前面两节002和003 的另外一种获取和解析数据的方法import requestsre=requests.get('https://pic.netbian.com/4kdongwu/').textfrom lxml import etreehtml = etree.HTML(re)result = etree.tostring(html)li=html.xpath('//div[@

Amoor123

409人浏览 · 2021-08-28 12:10:45

Amoor123 · 2021-08-28 12:10:45 发布

这个可以看做是前面两节002和003 的另外一种获取和解析数据的方法

import requests
re=requests.get('https://pic.netbian.com/4kdongwu/').text

from lxml import etree
html = etree.HTML(re)
result = etree.tostring(html)

li=html.xpath('//div[@class="slist"]//li')
addrlist=[]
for i in li:
    addrlist.append(i.xpath('./a/@href')[0])

第一步获取图片

使用requests库获取这个页面

第二步用lxml解析

html = etree.HTML(re)
因为HTML函数参数要求是string，所以这里的解析前的数据要使用.text属性

第三步去网页找这个数据

取得li元素的列表
在这里插入图片描述

li=html.xpath(’//div[@class=“slist”]//li’)
我们是自己写的，//表示所有节点的
div[@class=“slist”]表示选取 class属性为slist的div
//表示的所有节点中的
li表示所有的li节点
连起来解释为
所有节点中找到class为slist的div下面的所有li节点
这个也可以在浏览器里面找到第一个节点并又见复制xpath
google浏览器的方法就是对着第一个要提取的< li> —右键copy选xpath
复制出来是这样的
//*[@id=“main”]/div[3]/ul/li[1]
去掉末尾的序号-----[1]
然后运行，同样得到了这个属性，这里也是取得li这个元素的列表

在这里插入图片描述
然后遍历这个取得的li元素列表里的元素
i.xpath(’./a/@href’)[0]
选取当前节点下的a元素的属性href
因为取得的是列表，所以取第【0】个数据
这里浏览器的copy效果不好，也要自己加href属性

这样就可以取得前面的资源列表了

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。