大数据可视化核心技术
数据采集与预处理由于数据经常有着不同的来源,需要对数据做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。所用工具有Data Flux、Data Stage及Informatica Power Center等。数据存储与管理传统的数据存储和管理以结构化数据为主,而大数据往往是半结构化和非结构化数据为主...
数据采集与预处理
由于数据经常有着不同的来源,需要对数据做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。所用工具有Data Flux、Data Stage及Informatica Power Center等。
数据存储与管理
传统的数据存储和管理以结构化数据为主,而大数据往往是半结构化和非结构化数据为主、结构化数据为辅,需要对不同类型的数据内容检索、交叉比对、深度挖掘与综合分析。
MPP(Massive Parallel Processing)分布式计算模式可以管理大规模结构化数据,Hadoop则可以实现对半结构化和非结构化数据的处理。
大数据计算
大数据计算模式,即根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象(abstraction)或模型(model)。典型的大数据计算模式包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)以及图计算(GraphX)等。
大数据分析
对大数据的深度分析主要基于大规模的机器学习技术,由于基于机器学习的大数据分析具有迭代性、容错性、参数收敛的非均匀性等特点,直接应用传统的分布式计算系统应用于大数据分析,很大比例的资源都浪费在通信、等待、协调等非有效的计算上。
研究人员开发了一系列接口简单容错性强的分布式计算框架服务于大数据分析算法,以MapReduce、Spark和参数服务器ParameterServer等为代表。
大数据可视化
可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的数据。大规模数据的可视化主要是基于并行算法设计的技术,结合多分辨率表示等方法,主要涉及数据流线化、任务并行化、管道并行化和数据并行化4 种基本技术。
微软的大规模机器学习可视化平台(Azure Machine Learning)、阿里巴巴旗下的大数据分析平台御膳房都是互动式大数据分析平台的案例。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)