【水果·识别数据集】Fruit Recognition(水果识别)
覆盖15种主流水果类别(包括苹果、香蕉、杨桃、番石榴、猕猴桃、芒果、橙子、桃子、梨、柿子、火龙果、李子、石榴、西红柿、甜瓜),部分类别进一步细分子类别,其中苹果类别最为细致,含6个子类别(Apple A、Apple B、Apple C、Apple D、Apple E、Apple F)。该数据集是Kaggle平台上的公开计算机视觉数据集,标题为“Fruit Recognition(水果识别)”,由C
·
一、数据集基础概况
- 该数据集是Kaggle平台上的公开计算机视觉数据集,标题为“Fruit Recognition(水果识别)”,由
Chris Gorgolewski创建并更新。
- 图像总量:共包含
44406张带标注的水果图像,所有图像均为“有标签数据”,可直接用于模型训练与验证。- 类别划分:覆盖15种主流水果类别(包括苹果、香蕉、杨桃、番石榴、猕猴桃、芒果、橙子、桃子、梨、柿子、火龙果、李子、石榴、西红柿、甜瓜),部分类别进一步细分子类别,其中苹果类别最为细致,含6个子类别(Apple A、Apple B、Apple C、Apple D、Apple E、Apple F)。 - 图像技术参数:采用HD Logitech webcam(高清罗技 webcam)拍摄,相机像素为500万,图像背景统一为“干净纯色背景”,分辨率固定为320×258像素,色彩空间为RGB,每个颜色通道的位深度为8位(即每个通道取值范围0-255),保证图像色彩信息的完整性。
- 我用夸克网盘给你分享了「水果识别数据集」,点击链接或复制整段内容,打开「夸克APP」即可获取。链接:https://pan.quark.cn/s/34fb850dea1b
二、数据采集细节
1. 采集周期与环境控制
- 采集时长:整个数据采集过程持续6个月,而非短期集中采集,确保数据在时间维度上的多样性(如不同季节水果状态、不同时段光照变化)。
- 采集场景:以“实验室可控环境”为基础,同时针对性模拟“超市、水果店等真实应用场景”的识别挑战,避免数据与实际应用脱节。
- 采集设备辅助:除相机外,还使用“自主研发的智能称重设备”辅助固定水果位置,确保同一类别水果的拍摄角度、距离相对统一,同时便于控制变量(如姿态、遮挡)。
2. 关键变量设计
为解决真实场景中水果识别的痛点,采集时特意设置多类变量,具体包括:
- 光照变量:涵盖自然光(窗户全开、半开、关闭,窗帘全开、半开、关闭)、人工光(室内灯全开、关闭,荧光灯照明)、混合光(自然光+人工光)等场景,甚至包含“同一水果在不同天气(晴天、阴天)下的图像”,解决光照差异导致的识别偏差。
- 姿态与数量变量:同一水果采用不同摆放姿态(平放、倾斜、堆叠),同一图像中水果数量不同(1个、2个、多个堆叠),模拟超市中水果的随机摆放状态。
- 遮挡与完整性变量:包含“部分遮挡”(如水果被叶子、包装纸遮挡1/4-1/2面积)、“手部遮挡”(模拟顾客挑选水果时的手部遮挡场景),以及“完整无遮挡”三类图像,覆盖不同识别难度。
- 类别与颜色变量:
- 同色不同类:采集颜色相近但类别不同的水果(如黄色的香蕉与黄色的芒果),测试模型对“颜色相似类别”的区分能力。
- 同类不同色:采集同一类别下不同颜色的水果(如红色苹果、绿色苹果、黄色苹果),确保模型能识别类别内的颜色差异。
- 特殊细节变量:针对特定水果设置专项变量,如芒果含3个子类别(均包含“镜面反射阴影”场景)、猕猴桃含3个子类别、苹果含6个子类别,覆盖水果的品种差异。
3. 数据质量与多样性保障
- 同一类别水果在“不同日期、不同时段(早、中、晚)”采集,避免数据因时间单一导致的泛化能力差问题。
- 图像质量存在合理差异,部分图像有轻微拍摄 artifacts(如轻微模糊、边缘畸变),模拟真实相机拍摄的非理想状态,提升模型对“非完美图像”的适应能力。
三、数据集结构与容量细节
1. 文件夹组织逻辑
采用“三级结构”划分:总数据集文件夹→水果主类别文件夹→水果子类别文件夹,具体如下:
- 一级(总数据集):版本1对应的总文件夹,包含所有水果类别及相关说明文件。
- 二级(主类别文件夹):共15个,分别对应15种水果,名称为水果英文全称(如Apple、Banana、Carambola、Guava、Kiwi、Mango、Orange、Peach、Pear、Persimmon、Pitaya、Plum、Pomegranate、Tomatoes、muskmelon)。
- 三级(子类别文件夹):仅含子类别水果的主文件夹下有此层级,以苹果为例:
- Apple主文件夹下包含7个三级文件夹:Apple A、Apple B、Apple C、Apple D、Apple E、Apple F、Total Number of Apples(苹果总数汇总文件夹)。
2. 容量与文件数量明细
- 总容量:数据集版本1的总容量为8.49GB,总文件数70.5k(含图像文件及可能的说明文件)。
- 重点类别文件数:仅苹果类别文件数明确,具体子类别数量如下:
- Apple A:692个文件
- Apple B:740个文件
- Apple C:1002个文件
- Apple D:1033个文件
- Apple E:664个文件
- Apple F:2030个文件
- Total Number of Apples:5024个文件(为上述6个子类别文件数总和,验证数据一致性)
- 其他14种水果的具体文件数未单独标注,但均包含在“70.5k总文件数”中

四、原作者及其相关信息
1. 版权许可证详情
- 许可证类型:Attribution 4.0 International(简称CC BY 4.0,署名4.0国际许可证),是Creative Commons(知识共享组织)的核心许可证之一。

- 作者:Chris Gorgolewski
- 源地址:https://www.kaggle.com/datasets/chrisfilo/fruit-recognition
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)