今天给大家带来了python抓取b站小视频的小爬虫

首先打开小视频的网页url = http://vc.bilibili.com/p/eden/rank#/?tab=%E5%85%A8%E9%83%A8然后我们来分析下url：点击排行榜，默认全部显示，往下拉滚动条，发现网页是动态加载的，然后我们打开审查元素（快捷键F12），这里我用的是火狐浏览器，先清空然后往下拉进度条，就出来了动态加载的所有信息：找到下图所示的内容这个就是动态加载的内容，

python自由菌

471人浏览 · 2021-08-26 17:05:23

python自由菌 · 2021-08-26 17:05:23 发布

首先打开小视频的网页

url = http://vc.bilibili.com/p/eden/rank#/?tab=%E5%85%A8%E9%83%A8

然后我们来分析下url：

点击排行榜，默认全部显示，往下拉滚动条，发现网页是动态加载的，然后我们打开审查元素（快捷键F12），这里我用的是火狐浏览器，先清空然后往下拉进度条，就出来了动态加载的所有信息：

找到下图所示的内容

这个就是动态加载的内容，我们点击它，看下它有些什么东西

响应里面，可以看到是json格式保存的内容，包括视频的简介，视频url等等，而这些就是我们今天的目标了！最后，如果你的时间不是很紧张，并且又想快速的提高，最重要的是不怕吃苦，建议你可以联系维：762459510 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~

我们先来获取消息头里面的真实网址！

观察规律找到翻页的控制参数和请求模式，next_offset=后面控制视频的加载，以10的倍数翻页，请求模式为get

然后就可以开始写代码了！

首先导入模块，我们今天要用到的模块很少

import requests, time, random,re

这几个模块都可以用pip来安装，命令是:pip install 库名

其中用time和random模块是用于爬取内容时的时间间隔

好了，先写个获取源码的函数

头部信息在消息头里面的请求头，大家自行修改为自己的就好！

因为我们要依次保存mp4格式的视频文件，所以这里我提供给大家一个小函数，用于剔除文件名中的不规范符号，用了re模块！

这里说明下，这段代码是在网上找的，懒的敲了

先来获取每次加载的url，注意第一次加载的url和后面加载的不一致，用if函数。最后，如果你的时间不是很紧张，并且又想快速的提高，最重要的是不怕吃苦，建议你可以联系维：762459510 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~

分析整个页面发现，排行榜只有100个视频，10个一批加载，所以直接写入循环，然后用json方式获取我们需要的内容即可，非常简单的一个爬虫。

完整代码和运行结果奉上！

需要注意的是在下载视频文件的时候，需要加入头部信息，不然下载不了的！

喜欢就点个赞呗！

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

cover

工业物联网时序数据库选型指南：Apache IoTDB 技术架构与实战解析

cover

面向未来的工业大数据架构：时序数据库（TSDB）选型避坑指南和国产化思考

cover

宇树G1-D：人形机器人下一步方向！

所有评论(0)

查看更多评论

python自由菌

已为社区贡献6条内容