一、数据采集

1. 数据是指一切能够输入计算机中,且能被计算机程序所处理的符号的总称。

2. 数据类别:

2-1 按字段类型分类是最基本的数据分类方式
  • 文本类:用于描述字段;非量化值,不可直接用于运算
  • 时间类:用于描述事件发生的时间;可直接借用与运算
  • 数值类:用于描述可量化属性/编码操作;可直接用于运算

2-2 按数据结构类型分类

  • 结构化数据: 由统一的结构来逻辑表示和存储得到数据
  • 非结构化数据:无预定义数据类型,不可直接用数据库逻辑来表现的数据
  • 半结构化数据:具有结构化形式,但并不符合数据模型结构

3. 数据采集

数据采集是将分散的、零乱的、标准不统一的数据整合到一起。

二、数据预处理

数据标准化是将数据按照一定的规则转换为相同尺度的过程,主要目的是消除不同指标之间的量纲和数值范围差异的影响。它有几个关键含义:

  • 统一尺度:将不同量纲、不同数量级的数据转换到同一个标准范围内,通常是[0,1]或[-1,1]区间
  • 消除量纲影响:比如有的数据以千米为单位,有的以米为单位,标准化后可以消除单位差异的影响 

数据标准化常见方法:

  • 最小-最大标准化(Min-Max Scaling):(x - min)/(max - min)
  • Z-score标准化:(x - mean)/std
  • 小数定标标准化:移动小数点的位置

三、数据可视化





3-2 QuickBI 



 

3-3 DataV


四、数据标注

1. 数据标注概述

数据标注是指为原始数据添加标签、注释或分类信息的过程。 

  • 创建训练数据集
  • 提供监督学习所需的标准答案
  • 帮助模型理解数据含义

2. 多类型数据的标注方法及标准

2-1 图像标注

  • 目标检测框标注
  • 图像分类标签
  • 语义分割
  • 关键点标注
  • 实例分割




2-2 文本标注


 2-3 语音标注


3. 数据标注的常用文件格式

4. 机器学习PAI平台的智能标注概述


Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐