python爬虫，简单的爬取小说网站的阅读排名

现在大部分网站感觉都上了反扒的东西，直接写底层很难得到准确结果首先要安装requests,lxmlpip方式：pip install requestspip install lxml具体代码：import requestsfrom lxml import etree#构造自己的数据结果类class xuanhuan:def __init__(self,ranking...

胜天半子_王二_王半仙

2742人浏览 · 2019-11-03 18:59:35

胜天半子_王二_王半仙 · 2019-11-03 18:59:35 发布

现在大部分网站感觉都上了反扒的东西，直接写底层很难得到准确结果

首先要安装requests,lxml
pip方式：

pip install requests
pip install lxml

具体代码：

import requests
from lxml import etree

#构造自己的数据结果类
class xuanhuan:
    def __init__(self,ranking,name,numOfWords):
        self.ranking = ranking
        self.name = name
        self.numOfWords = numOfWords

html = requests.get('http://top.hengyan.com/xuanhuan')
selector = etree.HTML(html.text)
position = '/html/body/div[2]/div[2]/div[3]/ul[2]'
#/html/body/div[2]/div[2]/div[3]     /ul[2]/li[3]
#/html/body/div[2]/div[2]/div[3]     /ul[3]/li[3]

#使用xpath来进行筛选结果，将html解析成树，比直接用正则表达式及简单。
content = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul')
#循环遍历其中的元素
for i in range(1,len(content)+1):
    ranking = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul['+str(i)+']/li[1]/text()')
    name = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul['+str(i)+']/li[3]/text()')
    numOfWords = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul['+str(i)+']/li[4]/text()')
    newXuanHuan = xuanhuan(ranking,name,numOfWords)
    print(newXuanHuan.ranking,end=' ')
    print(newXuanHuan.name,end=' ')
    print(newXuanHuan.numOfWords)