1.数据的概念:
对客观事件进行记录并可以鉴别的符号

e5201e84a8be4ccba5671172c9fbe3d9.jpg

 

2.信息=数据+处理(信息是有价值的数据)afc501a1b84b451a8cb75ea94ca3f99e.jpg

 

3.从数据结构化程度分类:
结构化数据 半结构化数据 非结构化数据

4.数据的组织方式2种:文件和数据库

(ps:数据不会因为不断使用而减少价值反而因为重组增加价值)

5.典型的数据分析过程包括:

数据采集与预处理,数据存储与管理,数据处理与分析,数据可视化等等。

                               数据采集

6ecc5ef411424720bb7e9bebdba9d386.jpg

 6.数据采集三大要点:

全面性,多维性,高效性。

7.数据采集的数据源

①传感器数据

②互联网数据

③日志文件

④企业业务系统数据

8.数据采集方法

①系统日志采集

②分布式消息订阅分布

③ETL

④网络数据采集

9.数据清洗是指将大量原始数据中“脏”的洗掉

10.数据清洗的主要应用领域包括:

数据仓库与数据挖掘,数据质量管理。

 

 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐