⭐App爬虫之路⭐：海量食谱数据爬取持久化！！！

文章目录前言App数据抓包分析完整代码爬取结果最后前言App数据抓包分析打开豆果美食APP得到对应的JSON数据对应代码url = "https://api.douguo.net/recipe/flatcatalogs"data = {"client": "4,","_vs": "0",}count = 0response = handle_request(url, data)# 转化为js

Code皮皮虾

2088人浏览 · 2021-07-19 08:53:47

Code皮皮虾 · 2021-07-19 08:53:47 发布

文章目录

前言

前言

App数据抓包分析

打开豆果美食APP

在这里插入图片描述

得到对应的JSON数据
在这里插入图片描述

对应代码

    url = "https://api.douguo.net/recipe/flatcatalogs"
    data = {
        "client": "4,",
        "_vs": "0",
    }
    count = 0
    response = handle_request(url, data)
    # 转化为json格式
    index_response_dict = json.loads(response.text)

使用在线JSON解析网站进行解析，可以发现我们得到了需要的数据

在这里插入图片描述

那我们就进入红烧肉吧😁，发现有三种排序的方式

在这里插入图片描述

那我们在fiddler中可以发现三个对应的HTTPS请求

在这里插入图片描述

表面上看长得一摸一样，但三个都是POST请求，所以参数不同，根据我的实践，发现三种分类对应三个order字段的不同值

在这里插入图片描述

再来看看具体的JSON数据，可见是一一对应的

在这里插入图片描述

对应部分代码

caipu_list_url = "https://api.douguo.net/recipe/v2/search/0/20"
caipu_list_response = handle_request(url=caipu_list_url, data=data)
caipu_list_response_dict = json.loads(caipu_list_response.text)

然后的话还需要去请求详情页

请求路径中的数字就是上面得到的ID

在这里插入图片描述

对应部分代码

detail_url = "https://api.douguo.net/recipe/v2/detail/" + str(shicai_id)
detail_data = {
    "client": "4",
    "author_id": "0",
    "_vs": "11104",
    "_ext": '{"query":{"kw":' + str(
        shicai) + ',"src":"11104","idx":"3","type":"13","id":' + str(
        shicai_id) + '}}',
    "is_new_user": "1",
}
detail_response = handle_request(detail_url, detail_data)
#解析为json格式
detail_response_dict = json.loads(detail_response.text)

爬取结果

代码测试，只爬取了部分

在这里插入图片描述

最后

我是 Code皮皮虾，一个热爱分享知识的皮皮虾爱好者，未来的日子里会不断更新出对大家有益的博文，期待大家的关注！！！

创作不易，如果这篇博文对各位有帮助，希望各位小伙伴可以一键三连哦！，感谢支持，我们下次再见~~~

⭐需要完整代码的可以私信我⭐

分享大纲

大厂面试题专栏

 Java从入门到入坟学习路线目录索引

 开源爬虫实例教程目录索引

更多精彩内容分享，请点击 Hello World (●’◡’●)

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模