python爬取小说排行榜到excel表中_python爬取小说网站并将数据存储在excel中
先导入需要的工具,定义爬虫类,初始化base_url,随机请求头,总页数,记录每一页的小说名和连接地址,以及后面需要用到的存入excel中的行数.获取网页源代码,具体分析是否为第一页,因为分析url地址发现第一页的url与后面的url不一样,若是第一页便直接返后self.base_url,若不是便进行网址拼接,传入页码数设置循环,若不能正常连接,便返回失败的信息及原因,并重新尝试连接.解析网页源码
先导入需要的工具,定义爬虫类,初始化base_url,随机请求头,总页数,记录每一页的小说名和连接地址,以及后面需要用到的存入excel中的行数.

获取网页源代码,具体分析是否为第一页,因为分析url地址发现第一页的url与后面的url不一样,若是第一页便直接返后self.base_url,若不是便进行网址拼接,传入页码数

设置循环,若不能正常连接,便返回失败的信息及原因,并重新尝试连接.

解析网页源码,通过引入etree,将获取的网页源码,转化为xpath可以解析的格式,设置编码为utf-8格式
优先获取总页数,匹配到的为

所以需要通过正则表达式,匹配到总页数的数字,转化为整数类型
之后获取网页中的小说名称和详情地址的url,并将其保存到一个元组中,之后将元组存入,小说列表中

再定义一个解析详情的类,解析小说的详情信息

获取详情地址的网页源代码

根据xpath具体解析出小说的详细信息.清洗数据,并将解析出来的信息进行返回

返回上一个类中,编写将数据写入表格中的函数,实现解析详情类的实例对象,根据小说的详情地址进行解析

编写start函数,创建表格,写入数据,保存表格

实现爬虫类的对象,调用start函数,开始进行爬虫

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)