目录

一、不同方式导入Starrocks速度分析

1.1 导入汇总表格

1.2 导入速率

1.3 版本差异

1.4 数据表差异

二、 数据磁盘空间占用分析

2.1 汇总分析表格

2.2 CSV格式

2.3 Hive格式

2.4 StarRocks格式

一、不同方式导入Starrocks速度分析

1.1 导入汇总表格

StarRocks数据导入对比
导入方式 datax breaker load inert into as select
数据量 股东信息表10000w
版本 2.5.22 3.3.13 3.4.3 2.5.22 3.3.13 3.4.3 2.5.22 3.3.13 3.4.3
导入时间 12:07:42 13:49:27 15:54:03 15:18:34 15:58:03 15:33:39 12:03:50 12:48:55 13:06:22
结束时间 13:32:51 15:47:59 18:09:08 15:29:24 16:16:10 15:51:07 12:15:05 12:58:45 13:23:36
总耗时 5109s 7112s 8105s 650s 1095s 1048s 675s 590S 1034S
平均导入速率 19573.30条/s 14060.74条/s 12338条/s 153846.15条/s 91324.20条/s 95419.85条/s 148148.15条/s 169491.53条/s 96711.80条/s
2.93MB/s 2.11MB/s 1.85MB/s 23.06MB/s 13.69MB/s 14.30MB/s 68.78MB/s 78.69MB/s 44.90MB/s
数据量 企业信息表10000w
版本 2.5.22 3.3.13 3.4.3 2.5.22 3.3.13 3.4.3 2.5.22 3.3.13 3.4.3
导入时间 11:06:11 13:40:17 16:54:14 15:18:57 15:58:09 15:32:06 12:03:50 12:48:50 13:26:22
结束时间 13:37:52 16:45:25 20:32:49 15:40:37 16:16:24 15:51:20 12:23:24 13:12:26 13:41:49
总耗时 9101s 11108S 13115s 1300s 1087s 1154s 1178s 1176S 927s
平均导入速率 11109.88条/s 9002.52条/s 7624.86条/s 76923.08条/s 92250.92条/s 86655.11条/s 84889.64条/s 85034.01条/s 107874.87条/s
3.58MB/s 2.93MB/s 2.48MB/s 24.99MB/s 29.97MB/s 28.16MB/s 63.06MB/s 63.16MB/s 80.13MB/s

1.2 导入速率

StarRocks的Broker Load和INSERT INTO SELECT方式性能远超DataX:

  • Broker Load:最高速率达153846条/s(23.06MB/s),比DataX(最高19573条/s)快约8倍。
  • INSERT INTO SELECT:速率可达169491条/s(78.69MB/s),适合高性能批量导入。

1.3 版本差异

StarRocks 2.5.22在Broker Load中表现最佳(153846条/s),而3.x版本速率略有下降,可能因功能增强带来额外开销。但3.4.3的INSERT INTO SELECT在企业表导入中速率最高(107874条/s),优化了大数据量场景。

1.4 数据表差异

企业信息表因单条数据量更大,导入速率普遍低于股东表(如DataX中企业表速率11109条/s vs 股东表19573条/s),但Broker Load和INSERT INTO SELECT仍能维持较高吞吐。

二、 数据磁盘空间占用分析

2.1 汇总分析表格

数据磁盘空间占用对比
Csv Hive Starrocks
数据表 股东信息表 企业信息表 股东信息表 企业信息表 股东信息表 企业信息表
100w数据 0.54GB 0.87GB 1.51GB 2.30GB 0.29GB 0.60GB
500w数据 2.65GB 4.25GB 7.4GB 11.25GB 1.47GB 2.99GB
1000w数据 5.30GB 8.51GB 14.80GB 22.53GB 2.93GB 5.97GB
平均数据大小 5.43MB/万 8.72MB/万 15.11MB/万 23.57MB/万 2.97MB/万 6.14MB/万
存储倍率 1 1 2.792 2.648 0.548 0.699
10000w数据磁盘空间占用对比
Csv Hive Starrocks
数据表 股东信息表 企业信息表 股东信息表 企业信息表 股东信息表 企业信息表
10000w数据 54.0GB 90.9GB 14.64GB 31.78GB 45.34GB 72.54GB
平均数据大小 5.54MB/万 9.31MB/万 1.50MB/万 3.25MB/万 4.62MB/万 7.43MB/万
存储倍率 1 1 0.271 0.35 0.84 0.798

2.2 CSV格式

股东信息表和企业信息表在10000w数据规模下分别占用54.0GB和90.9GB,平均每万条数据占用5.54MB和9.31MB。存储效率最低,未压缩的原始文本格式导致空间占用最大。

2.3 Hive格式

在10000w数据规模下,Hive的存储空间显著低于CSV(股东表14.64GB,企业表31.78GB),存储倍率分别为0.271和0.35。但在100w-1000w数据规模下,Hive的空间占用反而高于CSV(存储倍率2.792和2.648),可能与小数据量下的元数据开销或分区策略有关。

2.4 StarRocks格式

在10000w数据规模下,StarRocks的空间占用介于CSV和Hive之间(股东表45.34GB,企业表72.54GB),但存储倍率优于CSV(0.84和0.798)。小数据量时(100w-1000w),StarRocks的压缩效果更显著,存储倍率低至0.548和0.699,说明其列式存储和编码优化对小数据更高效。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐