一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码
Selenium_Crawler一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码代码更新2020/10/29 修改了每次爬取时覆盖上次爬取的文件的bug2020/10/29 修改了项目文件目录结构使用方式文件夹中的文件分别对应内容New_York_Times_Crawler:存 New York Tiems 的爬虫代码New_York_Tim
Selenium_Crawler
一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码
代码更新
3/11/2021
- 修改报错信息不明确的bug
- 更新
twitter_crawler.py代码中的各字段class属性名称 - 因为网站源代码中结构的变化,最开始使用的类似
class类似的属性名称有时会发生改变,需要重新更正- 更正样例
- 字段
class属性信息如何确认- 使用
Chrome浏览器访问URl,右键打开检查(快捷键F12) 
- 使用
- 更正样例
2020/10/29
- 修改了每次爬取时覆盖上次爬取的文件的bug
- 修改了项目文件目录结构
使用方式

文件夹中的文件分别对应内容
New_York_Times_Crawler:存 New York Tiems 的爬虫代码
New_York_Times_Data:存放成功爬取的数据,格式分别为 csv 和 excel
news_crawler.py: New York Tiems 的爬虫代码
news_url.txt:存放想要爬取的 New York Tiems 的 url 地址(可以放置多条地址)
Twitter_Crawler:存放 Twitter 的爬虫代码
TwitterData:存放成功爬取的数据,格式分别为 csv 和 excel
twitter_crawler.py:Twitter 的爬虫代码
twitter_url.txt:存放想要爬取的 Twitter 的 url 地址(可以放置多条地址)
爬虫所对应的网站的网页结构
New York Tiems


准备运行代码
Selenium 模块
本代码使用的是 Python 中的 Selenium 模块,如果没有 Selenium 模块的使用经验的话请浏览https://www.cnblogs.com/linhaifeng/articles/7783599.html中的有界浏览器使用方式。
可能会遇到的问题
Twitter 和 New York Times 访问速度过慢
爬虫代码中断
解决方法
访问速度过慢的话,这个没有办法帮你,网络环境的问题请自行查找解决办法
爬虫代码中断,一般情况下,网络环境没问题,设置的 URL 完整的话不会出现爬虫代码中断的错误,遇到的话请多跑几遍代码在询问,并附上错误信息
代码开源地址
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)