自从改了‘海边长大就喜欢浪’这个id后,就更加喜欢刷新浪微博了,于是乎爬一下新浪微博好友圈信息

通过提交cookie信息模拟登录移动端新浪微博(http://m.weibo.cn),爬取’好友圈’信息,新浪微博的表单交互比较复杂,移动端数据比较容易抓取,网页使用了异步加载技术。代码参考了各路大神的分享。

01

提交cookie信息模拟登录

没有微博小号,勇敢使用大号登录

刷新网页找到加载好友圈信息的文件,Headers部分和Response部分查看请求的URL和返回的信息,返回的信息为JSON格式。

个人cookie信息要注意保密。

02

构造下一页URL

翻页到下一页,发现后面的页面URL中有next_cursor字段的一串数字信息,在Preview标签中发现,返回的JSON数据中恰好有next_cursor字段,通过查看后面多页的URL发现,前一页的next_cursor字段刚好是后一页URL中的一串数字信息。

03

爬取文本内容写入文件

主要代码:

headers中的信息写的详细一点,防止id被封。

04

统计词频制作词云

使用Python第三方库jieba进行文本的关键词提取。

利用TAGUL在线制作词云工具(https://wordart.com/)制作词云。

结果真是惊呆了,排名前四的关键词竟然是......

焦虑

允悲?

摊手

哈哈哈哈!

90后的叔叔阿姨们,你们是提前进入中年危机了嘛

看着这张简单的好友圈词云,不得不寻求一下解决小伙伴们焦虑的办法了

最最后,年轻人嘛,应该多读书、多看报、少玩手机、多睡觉,少一点焦虑,多一点踏实。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐