学习AI必须要了解的开源数据集整理
常用开源数据集整理
以下是一份目前常用的开源AI训练数据集清单,涵盖计算机视觉、自然语言处理、语音识别、多模态等多个领域,按类别分类整理:
一、计算机视觉(CV)数据集
-
MNIST
-
内容:手写数字(0-9)的灰度图像(28x28像素)
-
用途:图像分类入门
-
规模:6万训练样本 + 1万测试样本
-
链接:http://yann.lecun.com/exdb/mnist/
-
-
CIFAR-10 / CIFAR-100
-
内容:10类或100类物体彩色图像(32x32像素)
-
用途:小规模图像分类
-
规模:5万训练 + 1万测试(CIFAR-10)
-
链接:https://www.cs.toronto.edu/~kriz/cifar.html
-
-
ImageNet
-
内容:1400万张标注图像,覆盖2万多个类别
-
用途:大规模图像分类/目标检测
-
链接:https://www.image-net.org/
-
-
COCO (Common Objects in Context)
-
内容:物体检测、分割、关键点标注的复杂场景图像
-
用途:目标检测/实例分割
-
规模:33万张图像
-
链接:https://cocodataset.org/
-
-
PASCAL VOC
-
内容:20类物体的检测和分割数据
-
用途:经典目标检测基准
-
链接:http://host.robots.ox.ac.uk/pascal/VOC/
-
-
Open Images
-
内容:900万张图像,覆盖6000类物体(含边界框和分割标注)
-
用途:大规模多标签分类/检测
-
链接:https://storage.googleapis.com/openimages/web/index.html
-
-
Cityscapes
-
内容:城市街道场景的语义分割数据(高分辨率)
-
用途:自动驾驶场景理解
-
链接:https://www.cityscapes-dataset.com/
-
二、自然语言处理(NLP)数据集
-
GLUE / SuperGLUE
-
内容:多种NLP任务(文本分类、推理、相似度等)的基准集合
-
用途:模型通用性评估
-
链接:https://gluebenchmark.com/
-
-
SQuAD (Stanford Question Answering Dataset)
-
内容:基于维基百科的问答对
-
用途:机器阅读理解
-
链接:https://rajpurkar.github.io/SQuAD-explorer/
-
-
IMDb Reviews
-
内容:5万条电影评论文本(带情感标签)
-
用途:情感分析
-
链接:https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
-
-
WikiText
-
内容:维基百科高质量文本(用于语言建模)
-
用途:文本生成/预训练
-
链接:https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/
-
-
Common Crawl
-
内容:海量网页文本(多语言)
-
用途:预训练语料库
-
链接:https://commoncrawl.org/
-
三、语音/音频数据集
-
LibriSpeech
-
内容:1000小时英语朗读语音(带文本转录)
-
用途:语音识别
-
链接:https://www.openslr.org/12
-
-
VoxCeleb
-
内容:10万条名人说话视频片段
-
用途:说话人识别/合成
-
链接:https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
-
-
AudioSet
-
内容:200万条音频片段(覆盖527类声音事件)
-
用途:音频分类
-
链接:https://research.google.com/audioset/
-
四、多模态数据集
-
Conceptual Captions
-
内容:330万张图像与描述文本对
-
用途:图文匹配/生成
-
链接:https://ai.google.com/research/ConceptualCaptions/
-
-
Visual Genome
-
内容:10万张图像的详细视觉关系标注
-
用途:视觉推理
-
链接:https://visualgenome.org/
-
-
LAION-5B
-
内容:58亿图文对(用于CLIP等模型训练)
-
用途:大规模多模态学习
-
链接:https://laion.ai/blog/laion-5b/
-
五、其他领域数据集
-
UCI Machine Learning Repository
-
内容:涵盖分类、回归、聚类等任务的经典数据集(如Iris、Wine等)
-
链接:https://archive.ics.uci.edu/ml/index.php
-
-
Kaggle Datasets
-
内容:社区上传的各类数据集(覆盖竞赛、研究等)
-
链接:https://www.kaggle.com/datasets
-
-
Hugging Face Datasets
-
内容:NLP、音频等多领域数据集(支持API快速加载)
-
链接:https://huggingface.co/datasets
-
注意事项
-
数据许可:部分数据集需遵守特定协议(如CC-BY、非商业用途等)。
-
领域适配:选择数据集时需匹配任务需求(如医疗、金融等垂直领域需专用数据)。
-
扩展工具:可通过数据增强(如Albumentations)或合成数据(如GAN生成)扩充数据量。
如果需要更具体的领域数据集(如医疗、遥感等),可进一步补充说明!

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)