【python 爬虫】：使用 lxml + requests 对带表格的网页进行爬取

原网页：CNNIC IP WHOIS数据库代码：#--*--conding:utf-8 --*--# 使用python爬取一个网页中表格的内容，并把抓取到的内容以json格式保存到文件中import requestsfrom lxml import etreeimport json# 获取网页源代码r = requests.get('http://ipwhois.cnnic.cn/bns/quer

Jack_Kuo

918人浏览 · 2021-05-20 16:25:20

Jack_Kuo · 2021-05-20 16:25:20 发布

原网页：CNNIC IP WHOIS数据库

在这里插入图片描述

代码：

#--*--conding:utf-8 --*--
# 使用python爬取一个网页中表格的内容，并把抓取到的内容以json格式保存到文件中

import requests
from lxml import etree
import json


# 获取网页源代码
r = requests.get('http://ipwhois.cnnic.cn/bns/query/Query/ipwhoisQuery.do?queryOption=ipv4&txtquery=8.8.8.8')

# 使用xpath对爬取的源代码进行处理
dom_tree = etree.HTML(r.content)

# 注意：换新的爬取的时候最重要的是找到这个
links = dom_tree.xpath("/html/body/center[1]/table[1]/tr/td/font")

# 取出links的单行、双行的数据
res1 = [i.text for i in links[::2]]
res2 = [i.text for i in links[1::2]]

# 把两行数据组合成在一起
result = tuple(zip(res1, res2))

# 使用json格式保存到文件中
json.dump(result, open('./data/xpath_get.txt', 'w', encoding='utf-8'), ensure_ascii=False)

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。