酷航数据采集
我使用了session保持会话,这样post请求之后重定向也可以返回正常数据,但是访问速度会比较慢,同时手动添加了多个cookie,做成cookie池,random.choice随机选择一个做为请求头的cookie,这样可以有效防止cookie使用次数过多而被ban.二. cookie具有时效性,访问次数过多会被ban,一段时间后可继续使用。一. 不带cookie访问该网站的任意页面会被识别为机器
酷航查询API接口随机开放~ : http://106.12.108.85:5002/search/?dataTag=kuhang&tripType=1&dep=CAN&arr=SIN&depDate=2018-11-20&arrDate=&needRule=&extra=&vcode=
今天抓取的是一家廉价航空公司的机票信息,该网站采用了收费的反爬虫服务,有兴趣的童鞋可以了解一下:
distil networks

当我抓该网站的post接口时,发现几个比较棘手的问题:
一. 不带cookie访问该网站的任意页面会被识别为机器人
二. cookie具有时效性,访问次数过多会被ban,一段时间后可继续使用
三. 无法使用selenium抓取数据,会被识别成机器人
四. 换Ip代理池无法解决cookie失效问题
五. post接口返回的页面是重定向之后的
六. 浏览器端的cookie是经过js加密的




我使用了session保持会话,这样post请求之后重定向也可以返回正常数据,但是访问速度会比较慢,同时手动添加了多个cookie,做成cookie池,random.choice随机选择一个做为请求头的cookie,这样可以有效防止cookie使用次数过多而被ban.
7.hcaptcha+reese84 绕过机器人识别 
可见成功抓取数据
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)