阿里云Big Data - dataworks和MaxCompute之间的关系与区别

dataworks和MaxCompute之间的关系与区别MaxCompute做数据存储和数据分析处理，Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、数据质量管理、数据API服务等等功能的大数据开发IDE套件。类似Spark和HUE的关系，不知道这个对比是否准确。MaxCompute存储目前只暴露表，能处理非结构化数据吗？可以，非结构化数据可以存放在OSS上，一种方式

天地不仁以万物为刍狗

6667人浏览 · 2020-07-02 21:58:12

天地不仁以万物为刍狗 · 2020-07-02 21:58:12 发布

dataworks和MaxCompute之间的关系与区别

MaxCompute做数据存储和数据分析处理，

Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、数据质量管理、数据API服务等等功能的大数据开发IDE套件。类似Spark和HUE的关系，不知道这个对比是否准确。

MaxCompute存储目前只暴露表，能处理非结构化数据吗？

可以，非结构化数据可以存放在OSS上，一种方式是通过外表方式，通过自定义Extractor来实现非结构化处理为结构化数据的逻辑。另外，也可以用Spark on MaxCompute对OSS进行访问，通过Spark程序对OSS目录下的文件进行抽取转换，结果写入MaxCompute表。

支持哪些数据源接入到MaxCompute

通过Dataworks数据集成服务或者自己使用DataX，可以实现阿里云上的各种离线数据源如数据库、HDFS、FTP等数据源的接入；

也可以用MaxCompute Tunnel工具/SDK，通过命令或SDK批量进行数据上传、下载；

流式数据，可以利用MaxCompute提供的Flume/logstash插件，将流式数据写入Datahub，然后归档到MaxCompute表；

支持阿里云SLS、DTS服务数据写入MaxCompute表；