以下是一份目前常用的开源AI训练数据集清单,涵盖计算机视觉、自然语言处理、语音识别、多模态等多个领域,按类别分类整理:


​一、计算机视觉(CV)数据集​

  1. ​MNIST​

    • 内容:手写数字(0-9)的灰度图像(28x28像素)

    • 用途:图像分类入门

    • 规模:6万训练样本 + 1万测试样本

    • 链接:http://yann.lecun.com/exdb/mnist/

  2. ​CIFAR-10 / CIFAR-100​

    • 内容:10类或100类物体彩色图像(32x32像素)

    • 用途:小规模图像分类

    • 规模:5万训练 + 1万测试(CIFAR-10)

    • 链接:https://www.cs.toronto.edu/~kriz/cifar.html

  3. ​ImageNet​

    • 内容:1400万张标注图像,覆盖2万多个类别

    • 用途:大规模图像分类/目标检测

    • 链接:https://www.image-net.org/

  4. ​COCO (Common Objects in Context)​

    • 内容:物体检测、分割、关键点标注的复杂场景图像

    • 用途:目标检测/实例分割

    • 规模:33万张图像

    • 链接:https://cocodataset.org/

  5. ​PASCAL VOC​

    • 内容:20类物体的检测和分割数据

    • 用途:经典目标检测基准

    • 链接:http://host.robots.ox.ac.uk/pascal/VOC/

  6. ​Open Images​

    • 内容:900万张图像,覆盖6000类物体(含边界框和分割标注)

    • 用途:大规模多标签分类/检测

    • 链接:https://storage.googleapis.com/openimages/web/index.html

  7. ​Cityscapes​

    • 内容:城市街道场景的语义分割数据(高分辨率)

    • 用途:自动驾驶场景理解

    • 链接:https://www.cityscapes-dataset.com/


​二、自然语言处理(NLP)数据集​

  1. ​GLUE / SuperGLUE​

    • 内容:多种NLP任务(文本分类、推理、相似度等)的基准集合

    • 用途:模型通用性评估

    • 链接:https://gluebenchmark.com/

  2. ​SQuAD (Stanford Question Answering Dataset)​

    • 内容:基于维基百科的问答对

    • 用途:机器阅读理解

    • 链接:https://rajpurkar.github.io/SQuAD-explorer/

  3. ​IMDb Reviews​

    • 内容:5万条电影评论文本(带情感标签)

    • 用途:情感分析

    • 链接:https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

  4. ​WikiText​

    • 内容:维基百科高质量文本(用于语言建模)

    • 用途:文本生成/预训练

    • 链接:https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/

  5. ​Common Crawl​

    • 内容:海量网页文本(多语言)

    • 用途:预训练语料库

    • 链接:https://commoncrawl.org/


​三、语音/音频数据集​

  1. ​LibriSpeech​

    • 内容:1000小时英语朗读语音(带文本转录)

    • 用途:语音识别

    • 链接:https://www.openslr.org/12

  2. ​VoxCeleb​

    • 内容:10万条名人说话视频片段

    • 用途:说话人识别/合成

    • 链接:https://www.robots.ox.ac.uk/~vgg/data/voxceleb/

  3. ​AudioSet​

    • 内容:200万条音频片段(覆盖527类声音事件)

    • 用途:音频分类

    • 链接:https://research.google.com/audioset/


​四、多模态数据集​

  1. ​Conceptual Captions​

    • 内容:330万张图像与描述文本对

    • 用途:图文匹配/生成

    • 链接:https://ai.google.com/research/ConceptualCaptions/

  2. ​Visual Genome​

    • 内容:10万张图像的详细视觉关系标注

    • 用途:视觉推理

    • 链接:https://visualgenome.org/

  3. ​LAION-5B​

    • 内容:58亿图文对(用于CLIP等模型训练)

    • 用途:大规模多模态学习

    • 链接:https://laion.ai/blog/laion-5b/


​五、其他领域数据集​

  1. ​UCI Machine Learning Repository​

    • 内容:涵盖分类、回归、聚类等任务的经典数据集(如Iris、Wine等)

    • 链接:https://archive.ics.uci.edu/ml/index.php

  2. ​Kaggle Datasets​

    • 内容:社区上传的各类数据集(覆盖竞赛、研究等)

    • 链接:https://www.kaggle.com/datasets

  3. ​Hugging Face Datasets​

    • 内容:NLP、音频等多领域数据集(支持API快速加载)

    • 链接:https://huggingface.co/datasets


​注意事项​

  • ​数据许可​​:部分数据集需遵守特定协议(如CC-BY、非商业用途等)。

  • ​领域适配​​:选择数据集时需匹配任务需求(如医疗、金融等垂直领域需专用数据)。

  • ​扩展工具​​:可通过数据增强(如Albumentations)或合成数据(如GAN生成)扩充数据量。

如果需要更具体的领域数据集(如医疗、遥感等),可进一步补充说明!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐