水果目标检测数据集介绍(7类,1316张)
在计算机视觉领域,水果识别与检测任务广泛应用于农业自动化、智能采摘、分拣系统以及食品工业中的质量检测。为支持目标检测算法在水果识别领域的研究与应用,我们构建并发布了一个高质量的,涵盖多种常见水果品类,并提供多种主流标注格式,便于快速上手训练主流模型如 YOLO系列、Faster R-CNN、SSD 等。
在计算机视觉领域,水果识别与检测任务广泛应用于农业自动化、智能采摘、分拣系统以及食品工业中的质量检测。为支持目标检测算法在水果识别领域的研究与应用,我们构建并发布了一个高质量的水果目标检测数据集,涵盖多种常见水果品类,并提供多种主流标注格式,便于快速上手训练主流模型如 YOLO系列、Faster R-CNN、SSD 等。
一、数据集概况
该数据集共包含 7 种水果类别,分别为:苹果、橙子、梨、菠萝、火龙果、草莓、西瓜。每张图像中可能含有一种或多种水果,目标形态多样、背景复杂度适中,适合用于模型鲁棒性训练与评估。
-
📊 图像总数:1316 张
-
🏷 目标类别数:7 类
-
📁 标注格式:YOLO 格式、VOC 格式、Json格式
标注后的数据集如下所示:



二、数据标注说明
该数据集包含7种水果类别,并提供了三种格式的标签,分别为json、xml和YOLO格式。在json和xml标签中,标签名称为英文。在yolo标签中,标签名字为从0开始的阿拉伯数字。其中类别编号与中英文名称的对应关系如下表所示:
| 类别编号 | 英文名称 | 中文名称 |
| 0 | apple | 苹果 |
| 1 | orange | 橙子 |
| 2 | pear | 梨 |
| 3 | pineapple | 菠萝 |
| 4 | pitaya | 火龙果 |
| 5 | strawberry | 草莓 |
| 6 | watermelon | 西瓜 |
三、数据集划分
下面代码主要作用是将原始数据集按比例划分为训练集、验证集和测试集,并分别保存对应的图像和YOLO格式标签文件。具体过程如下:
- 读取数据源路径:程序首先定义了包含所有图像和YOLO标签的原始路径。
- 获取图像列表并打乱顺序:通过读取图像文件名列表并使用 random.shuffle() 随机打乱,实现数据的随机分布。
- 按照7:2:1的比例划分数据集:分别确定训练集、验证集和测试集的数量,并获取对应文件名。(可自行地定义划分比例)
- 创建目标文件夹并复制文件:程序依次为训练集、验证集和测试集创建对应的图像与标签保存路径,并将图像文件和标签文件分别复制过去。
import os
import random
import shutil
root_dir = r"./data_sum"
save_root_dir = r"./data_split"
image_sum_dir = os.path.join(root_dir, "images")
label_yolo_sum_dir = os.path.join(root_dir, "labels_yolo")
# 获取文件夹下所有图片名称
image_list = os.listdir(image_sum_dir)
image_list = [name for name in image_list if name.endswith(".jpg")]
# 随机打乱文件名列表
random.shuffle(image_list)
# 划分训练集和验证集
train_ratio = 0.7
val_ratio = 0.2
test_ratio = 0.1
num_images = len(image_list)
num_train = int(num_images * train_ratio)
num_val = int(num_images * val_ratio)
num_test = num_images - num_train - num_val
print("num_images:{} num_train:{} num_val:{} num_test:{}".format(num_images, num_train, num_val, num_test))
# 获取训练集和验证集名字
train_names = image_list[:num_train]
val_names = image_list[num_train: num_train + num_val]
test_names = image_list[num_train + num_val: num_images]
# 训练集图片及标签保存路径
save_train_images_path = os.path.join(save_root_dir, "images", "train")
save_train_labels_path = os.path.join(save_root_dir, "labels", "train")
if not os.path.exists(save_train_images_path):
os.makedirs(save_train_images_path)
if not os.path.exists(save_train_labels_path):
os.makedirs(save_train_labels_path)
for name in train_names:
# 图像
image_path = os.path.join(image_sum_dir, name)
label_path = os.path.join(label_yolo_sum_dir, name.split(".jpg")[0] + ".txt")
assert os.path.exists(image_path), "file:{} not exist ...".format(image_path)
assert os.path.exists(label_path), "file:{} not exist ...".format(label_path)
shutil.copy(image_path, save_train_images_path)
shutil.copy(label_path, save_train_labels_path)
# 验证集图片及标签保存路径
save_val_images_path = os.path.join(save_root_dir, "images", "val")
save_val_labels_path = os.path.join(save_root_dir, "labels", "val")
if not os.path.exists(save_val_images_path):
os.makedirs(save_val_images_path)
if not os.path.exists(save_val_labels_path):
os.makedirs(save_val_labels_path)
for name in val_names:
# 图像
image_path = os.path.join(image_sum_dir, name)
label_path = os.path.join(label_yolo_sum_dir, name.split(".jpg")[0] + ".txt")
assert os.path.exists(image_path), "file:{} not exist ...".format(image_path)
assert os.path.exists(label_path), "file:{} not exist ...".format(label_path)
shutil.copy(image_path, save_val_images_path)
shutil.copy(label_path, save_val_labels_path)
# 测试图片及标签保存路径
save_test_images_path = os.path.join(save_root_dir, "images", "test")
save_test_labels_path = os.path.join(save_root_dir, "labels", "test")
if not os.path.exists(save_test_images_path):
os.makedirs(save_test_images_path)
if not os.path.exists(save_test_labels_path):
os.makedirs(save_test_labels_path)
for name in test_names:
# 图像
image_path = os.path.join(image_sum_dir, name)
label_path = os.path.join(label_yolo_sum_dir, name.split(".jpg")[0] + ".txt")
assert os.path.exists(image_path), "file:{} not exist ...".format(image_path)
assert os.path.exists(label_path), "file:{} not exist ...".format(label_path)
shutil.copy(image_path, save_test_images_path)
shutil.copy(label_path, save_test_labels_path)
四、应用场景
该数据集可广泛应用于以下方向:
-
智能农业中的果实识别与定位
-
自动采摘机器人导航与抓取点检测
-
食品工业中的自动分级与计数系统
-
零售/物流系统中的智能识别
本文数据集是在一些网站上搜集的,由于搜集的图片大多不带标注,自己进行了准确地标注,识别效果良好。如有需求,
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)