阿里云Big Data - dataworks和MaxCompute之间的关系与区别
dataworks和MaxCompute之间的关系与区别MaxCompute做数据存储和数据分析处理,Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、数据质量管理、数据API服务等等功能的大数据开发IDE套件。类似Spark和HUE的关系,不知道这个对比是否准确。MaxCompute存储目前只暴露表,能处理非结构化数据吗?可以,非结构化数据可以存放在OSS上,一种方式
MaxCompute做数据存储和数据分析处理,
Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、数据质量管理、数据API服务等等功能的大数据开发IDE套件。类似Spark和HUE的关系,不知道这个对比是否准确。
MaxCompute存储目前只暴露表,能处理非结构化数据吗?
可以,非结构化数据可以存放在OSS上,一种方式是通过外表方式,通过自定义Extractor来实现非结构化处理为结构化数据的逻辑。另外,也可以用Spark on MaxCompute对OSS进行访问,通过Spark程序对OSS目录下的文件进行抽取转换,结果写入MaxCompute表。
支持哪些数据源接入到MaxCompute
通过Dataworks数据集成服务或者自己使用DataX,可以实现阿里云上的各种离线数据源如数据库、HDFS、FTP等数据源的接入;
也可以用MaxCompute Tunnel工具/SDK,通过命令或SDK批量进行数据上传、下载;
流式数据,可以利用MaxCompute提供的Flume/logstash插件,将流式数据写入Datahub,然后归档到MaxCompute表;
支持阿里云SLS、DTS服务数据写入MaxCompute表;
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)