python爬虫,简单的爬取小说网站的阅读排名
现在大部分网站感觉都上了反扒的东西,直接写底层很难得到准确结果首先要安装requests,lxmlpip方式:pip install requestspip install lxml具体代码:import requestsfrom lxml import etree#构造自己的数据结果类class xuanhuan:def __init__(self,ranking...
·
现在大部分网站感觉都上了反扒的东西,直接写底层很难得到准确结果
首先要安装requests,lxml
pip方式:
pip install requests
pip install lxml
具体代码:
import requests
from lxml import etree
#构造自己的数据结果类
class xuanhuan:
def __init__(self,ranking,name,numOfWords):
self.ranking = ranking
self.name = name
self.numOfWords = numOfWords
html = requests.get('http://top.hengyan.com/xuanhuan')
selector = etree.HTML(html.text)
position = '/html/body/div[2]/div[2]/div[3]/ul[2]'
#/html/body/div[2]/div[2]/div[3] /ul[2]/li[3]
#/html/body/div[2]/div[2]/div[3] /ul[3]/li[3]
#使用xpath来进行筛选结果,将html解析成树,比直接用正则表达式及简单。
content = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul')
#循环遍历其中的元素
for i in range(1,len(content)+1):
ranking = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul['+str(i)+']/li[1]/text()')
name = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul['+str(i)+']/li[3]/text()')
numOfWords = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul['+str(i)+']/li[4]/text()')
newXuanHuan = xuanhuan(ranking,name,numOfWords)
print(newXuanHuan.ranking,end=' ')
print(newXuanHuan.name,end=' ')
print(newXuanHuan.numOfWords)
运行结果:

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)