selenium模拟浏览器的facebook数据采集案例(仅限学习使用)
FaceBook存在大量异步渲染,网络包复杂,所以此程序使用selenium模拟浏览器进行操作。能够抓取到用户的好友信息与个人信息和公共主页的好友信息。目前数据持久化未完成。
·
简介
网站存在大量异步渲染,网络包复杂,所以选择使用selenium模拟浏览器进行操作。
gitee:https://gitee.com/PoleMin/selenium_facebook_scrapper
文件目录
main.py: 程序主文件
chromedriver.exe: 程序运行所需要的浏览器驱动
stealth.min.js: 反反爬所需要的js文件,在init_opt()函数中调用
环境配置
-
selenium库
# 通过pip安装selenium pip install selenium
-
chromedriver
[CNPM Binaries Mirror](https://registry.npmmirror.com/binary.html?path=chromedriver/) 前往以上网址下载对应自己浏览器版本的chromedriver,并将且保存到程序所在根目录
-
python3
接口说明
# 初始化设置
# 功能:具体体现在反反爬、代理、请求等待
# params:
# proxy_url: 代理地址
# return:
# browser对象
init_opt(proxy_url)
# 用户登陆逻辑
# 功能:通过browser进行登陆
# params:
# browser: init_opt()返回的browser对象
# user_name: facebook登陆邮箱
# passwd: facebook登陆密码
# return:
# browser对象
login(browser, user_name, passwd)
# 查找用户
# 原理:通过id与base_url进行拼接进入主页, base_url:https://m.facebook.com/
# params:
# browser: login()返回的browser对象
# search_id: 查找用户的id
# return:
# person_info json对象
search_user(browser, search_id)
# 查找公共主页
# 原理:通过搜索框中搜索公共主页名字进入
# params:
# browser: login()返回的browser对象
# search_name: 查找公共主页的名字
# return:
# page_info json对象
search_page(browser, search_name)
仅限学习使用

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)