简单易懂的数据标注

众所周知，人工智能的三个关键要素：算法、算力、数据。我们今天主要讲讲数据，那数据标注就是逃不开的话题。

SAYF001

584人浏览 · 2025-06-09 08:38:01

SAYF001 · 2025-06-09 08:38:01 发布

众所周知，人工智能的三个关键要素：算法、算力、数据。

我们今天主要讲讲数据，那数据标注就是逃不开的话题

什么是数据？

数据可以分为文本、音频、图片、视频等形式，我们从数据分类聊一聊

数据可以分为结构化数据和非结构化数据

音频、图片、视频形式的数据多为非结构化数据，而文本类数据可以分为结构化数据和非结构化数据

结构化数据是指具有固定格式和明确结构的数据，通常以表格形式（如数据库中的行和列）存储，每个数据项都有明确的字段名和数据类型，便于计算机程序直接处理和分析。

白话文是 Excel 表格的数据大约是结构化数据

什么是数据标注？

通过添加有意义的标签、分类或注释，帮助将非结构化数据（如图像、文本、视频或音频）转换为结构化的带标签的数据集

对数据进行加工处理，通过添加标签、注释或标记，使其转化为计算机可识别的结构化数据的过程。简单理解，就是为数据“打标签”。

那为什么要进行数据标注？

目的是让AI模型能“理解”并学习数据中的特征和规律。

因为大型语言模型时代，数据标注质量直接决定了模型的智能上限。

数据一直被当作人工智能的“血液”，算法可以理解为人的大脑智商高低，算力理解为人的健康寿命

数据标注的过程就是通过人工贴标的方式，为机器系统提供大量学习的样本，没有标注数据，模型就无法从海量信息中提取出有价值的知识。只有经过数据标注后的数据，才能为人工智能所利用，提高应用的准确性和可靠性。

怎么进行数据标注

对文本进行特征标记，对其打上具体的语义、构成、语境、目的、情感等数据标签，通过标注好的训练数据，可以教会机器如何来识别文本中所隐含的意图或者情感，使机器可以更好地理解语言。

文本数据标注有文本分类、实体识别、问答系统及情绪分析等多种标注任务。

文档分类：标注者可以根据文档内容将其归类到相应的类别中，比如科技、医疗、汽车类别。

命名实体识别：标注者随后会在文本中标注出这些实体，并将其归类到相应的类别中，比如需要识别的实体类型（如人名、地名等）

问答系统：标注者将问题与答案进行关联，以生成训练数据，就是QA的文本数据。

情绪分析：标注者随后会阅读文本内容，并根据其表达的情绪倾向进行标注，比如情绪标签（如正面、负面、中性）。

"前面有多少智能，后面就有多少人工"——这句调侃道出了数据标注工作的本质。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。