华为hcip-big data 学习笔记《一》大数据应用开发总指导
hcip big data学习笔记
一、大数据应用开发总指导
1. 前言
随着大数据技术的飞速发展和大数据应用的不断普及,大数据已经成为当今时代最热门的话题之一。不过对于大数据的了解,很多人还只是停留在表面,提到大数据,很多人只是直到它是最新的科技,有很大的价值,对于它的主流技术和具体的解决方案可能没有过多的认知,本次课程将指引大家学习大数据主流技术和企业级大数据解决方案。
2. 目标
学完本章后,您将能够:
-
了解大数据主流技术
-
了解大数据场景化解决方案
-
了解大数据应用开发
3. 发展
根据IBM前首席执政官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。
|
信息化浪潮 |
发生时间 |
标志 |
解决问题 |
代表企业 |
|
第一次信息化浪潮 |
1980年前后 |
个人计算机 |
信息处理 |
Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等 |
|
第二次信息化浪潮 |
1995年前后 |
互联网 |
信息传输 |
雅虎、谷歌、阿里巴巴、百度、腾讯等 |
|
第三次信息化浪潮 |
2010年前后 |
物联网、云计算和大数据 |
信息爆炸 |
亚马逊、谷歌、IBM、Hortonworks、阿里云等 |
4.科技助力大数据时代到来

5.大数据的概念(4V)
大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。

6.三驾马车(Google发布的三篇论文)
大数据技术起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三架马车”。
-
分布式文件系统GFS
-
大数据分布式计算框架MapReduce
-
分布式数据块系统BigTable
7.大数据技术演变

8.大数据主流技术
所谓大数据技术,是指伴随大数据的采集、存储、处理和分析的相关技术

-
数据采集
-
使用Flume,可进行流式日志数据的收集
-
使用Sqoop可以交互关系型数据库,进行导入导出数据
-
使用爬虫技术,可在网上爬取海量网页数据。
-
-
数据存储和管理
-
大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
-
-
数据处理与分析
-
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。
-
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)