在这里插入图片描述

一、数据概述

import pandas as pd
# 加载数据集
df = pd.read_csv('/1_Recipe_csv.csv')
# 查看数据的基本信息
print('数据基本信息:')
df.info()
# 查看数据集行数和列数
rows, columns = df.shape
if rows < 100 and columns < 20:
    # 短表数据(行数少于100且列数少于20)查看全量数据信息
    print('数据全部内容信息:')
    print(df.to_csv(sep='\t', na_rep='nan'))
else:
    # 长表数据查看数据前几行信息
    print('数据前几行内容信息:')
    print(df.head().to_csv(sep='\t', na_rep='nan'))
  • 文件名为 1_Recipe_csv.csv,包含了食谱的相关信息。
  • 文件包含了 62126 条食谱相关的数据。
  • 该数据集包含了食谱的标题、类别、子类别、描述、食材、步骤、食材数量和步骤数量等信息。

二、食谱类别分布

# 二、食谱类别分布
import seaborn as sns
import matplotlib.pyplot as plt
# 查看食谱类别的分布情况
category_distribution = df['category'].value_counts()
# 查看食谱子类别分布
subcategory_distribution = df['subcategory'].value_counts()
# 设置图片清晰度和字体
plt.rcParams['figure.dpi'] = 300
plt.rcParams['font.sans-serif'] = ['WenQuanYi Zen Hei']
{'食谱类别的分布情况': category_distribution, '食谱子类别分布': subcategory_distribution}

1. 食谱类别分布情况

食谱类别 数量
Main Dishes 3387
Healthy Recipes 2237
Appetizers And Snacks 2084
Cakes 1954
Cookies 1849
Hushpuppies 5
Fondant 4
Divinity 4
Kolache 3
Waldorf Salads 2

从输出结果来看,食谱类别数量较多,共有 267 种不同的类别。像 ‘Main Dishes’(主菜)、‘Healthy Recipes’(健康食谱)、‘Appetizers And Snacks’(开胃菜和小吃)等类别数量相对较多,这可能反映出在食谱数据集中,人们对主菜、健康饮食以及小吃类食谱的关注度较高或者这类食谱本身在收集来源中就比较丰富。而像 ‘Waldorf Salads’(华尔道夫沙拉)等数量较少的类别,可能是比较小众或者特定类型的食谱。

2. 食谱子类别分布情况

食谱子类别 数量
Meatloaf 320
Lasagna 248
Pizza 233
Cinnamon Rolls 229
Pork Chops 193
Spinach Pasta Salad 2
Waldorf Salads 2
Strawberry Salad 2
Waldorf Salad 2
Spaghetti Pasta Salad 1

食谱子类别更加丰富,达到了 1032 种。像 ‘Meatloaf’(肉饼)、‘Lasagna’(千层面)、‘Pizza’(披萨)等子类别数量较多,这些可能是大众比较喜爱、常见的食谱类型。而数量为 1 或 2 的子类别,可能是比较特殊或者不太常见的食谱。

三、食材数量和步骤数量的分布

# 三、食材数量和步骤数量的分布

# 查看食材数量分布
num_ingredients_distribution = pd.cut(df['num_ingredients'], bins=10).value_counts()
# 查看步骤数量分布
num_steps_distribution = pd.cut(df['num_steps'], bins=10).value_counts()
{'食材数量分布': num_ingredients_distribution, '步骤数量分布': num_steps_distribution}

1. 食材数量分布

食材数量区间 数量
(7.8, 11.2] 23680
(4.4, 7.8] 17450
(11.2, 14.6] 9501
(0.966, 4.4] 6213
(14.6, 18.0] 4291
(18.0, 21.4] 699
(21.4, 24.8] 222
(24.8, 28.2] 58
(28.2, 31.6] 9
(31.6, 35.0] 3

从食材数量分布的数据来看,大部分食谱的食材数量集中在(7.8, 11.2]这个区间,数量达到 23680 个。随着食材数量区间的增大,食谱的数量呈现出明显的下降趋势。这可能意味着多数食谱所使用的食材数量较为适中,复杂、需要大量食材的食谱相对较少。对于食材采购和食谱规划来说,这种分布可以作为参考,例如超市可以根据这种分布来准备常见食材的库存,而家庭在选择食谱时也能了解大多数食谱的食材需求范围。

2. 步骤数量分布

步骤数量区间 数量
(3.4, 5.8] 22486
(0.976, 3.4] 20862
(5.8, 8.2] 15041
(8.2, 10.6] 2429
(10.6, 13.0] 1069
(13.0, 15.4] 180
(15.4, 17.8] 37
(17.8, 20.2] 16
(22.6, 25.0] 6
(20.2, 22.6] 0

步骤数量分布中,(3.4, 5.8]和(0.976, 3.4]这两个区间的食谱数量较多,分别为 22486 和 20862 个。同样,随着步骤数量的增加,食谱数量急剧减少。这表明大多数食谱的制作步骤相对较少,比较简单易操作。对于忙碌的人群或者初学者来说,这种分布可以帮助他们更容易地选择合适的食谱。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐