阿里云人工智能ACA(三)——数据处理基础
1. 数据是指一切能够输入计算机中,且能被计算机程序所处理的符号的总称。
·
一、数据采集
1. 数据是指一切能够输入计算机中,且能被计算机程序所处理的符号的总称。
2. 数据类别:
2-1 按字段类型分类是最基本的数据分类方式
- 文本类:用于描述字段;非量化值,不可直接用于运算
- 时间类:用于描述事件发生的时间;可直接借用与运算
- 数值类:用于描述可量化属性/编码操作;可直接用于运算
2-2 按数据结构类型分类
- 结构化数据: 由统一的结构来逻辑表示和存储得到数据
- 非结构化数据:无预定义数据类型,不可直接用数据库逻辑来表现的数据
- 半结构化数据:具有结构化形式,但并不符合数据模型结构

3. 数据采集
数据采集是将分散的、零乱的、标准不统一的数据整合到一起。

二、数据预处理
数据标准化是将数据按照一定的规则转换为相同尺度的过程,主要目的是消除不同指标之间的量纲和数值范围差异的影响。它有几个关键含义:
- 统一尺度:将不同量纲、不同数量级的数据转换到同一个标准范围内,通常是[0,1]或[-1,1]区间
- 消除量纲影响:比如有的数据以千米为单位,有的以米为单位,标准化后可以消除单位差异的影响
数据标准化常见方法:
- 最小-最大标准化(Min-Max Scaling):(x - min)/(max - min)
- Z-score标准化:(x - mean)/std
- 小数定标标准化:移动小数点的位置
三、数据可视化






3-2 QuickBI


3-3 DataV


四、数据标注
1. 数据标注概述
数据标注是指为原始数据添加标签、注释或分类信息的过程。
- 创建训练数据集
- 提供监督学习所需的标准答案
- 帮助模型理解数据含义

2. 多类型数据的标注方法及标准
2-1 图像标注
- 目标检测框标注
- 图像分类标签
- 语义分割
- 关键点标注
- 实例分割




2-2 文本标注


2-3 语音标注


3. 数据标注的常用文件格式

4. 机器学习PAI平台的智能标注概述


魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)