StarRocks各版本性能与兼容性对比测试-数据存储分析
在10000w数据规模下,StarRocks的空间占用介于CSV和Hive之间(股东表45.34GB,企业表72.54GB),但存储倍率优于CSV(0.84和0.798)。但3.4.3的INSERT INTO SELECT在企业表导入中速率最高(107874条/s),优化了大数据量场景。企业信息表因单条数据量更大,导入速率普遍低于股东表(如DataX中企业表速率11109条/s vs 股东表195
目录
一、不同方式导入Starrocks速度分析
1.1 导入汇总表格
StarRocks数据导入对比 | |||||||||
导入方式 | datax | breaker load | inert into as select | ||||||
数据量 | 股东信息表10000w | ||||||||
版本 | 2.5.22 | 3.3.13 | 3.4.3 | 2.5.22 | 3.3.13 | 3.4.3 | 2.5.22 | 3.3.13 | 3.4.3 |
导入时间 | 12:07:42 | 13:49:27 | 15:54:03 | 15:18:34 | 15:58:03 | 15:33:39 | 12:03:50 | 12:48:55 | 13:06:22 |
结束时间 | 13:32:51 | 15:47:59 | 18:09:08 | 15:29:24 | 16:16:10 | 15:51:07 | 12:15:05 | 12:58:45 | 13:23:36 |
总耗时 | 5109s | 7112s | 8105s | 650s | 1095s | 1048s | 675s | 590S | 1034S |
平均导入速率 | 19573.30条/s | 14060.74条/s | 12338条/s | 153846.15条/s | 91324.20条/s | 95419.85条/s | 148148.15条/s | 169491.53条/s | 96711.80条/s |
2.93MB/s | 2.11MB/s | 1.85MB/s | 23.06MB/s | 13.69MB/s | 14.30MB/s | 68.78MB/s | 78.69MB/s | 44.90MB/s | |
数据量 | 企业信息表10000w | ||||||||
版本 | 2.5.22 | 3.3.13 | 3.4.3 | 2.5.22 | 3.3.13 | 3.4.3 | 2.5.22 | 3.3.13 | 3.4.3 |
导入时间 | 11:06:11 | 13:40:17 | 16:54:14 | 15:18:57 | 15:58:09 | 15:32:06 | 12:03:50 | 12:48:50 | 13:26:22 |
结束时间 | 13:37:52 | 16:45:25 | 20:32:49 | 15:40:37 | 16:16:24 | 15:51:20 | 12:23:24 | 13:12:26 | 13:41:49 |
总耗时 | 9101s | 11108S | 13115s | 1300s | 1087s | 1154s | 1178s | 1176S | 927s |
平均导入速率 | 11109.88条/s | 9002.52条/s | 7624.86条/s | 76923.08条/s | 92250.92条/s | 86655.11条/s | 84889.64条/s | 85034.01条/s | 107874.87条/s |
3.58MB/s | 2.93MB/s | 2.48MB/s | 24.99MB/s | 29.97MB/s | 28.16MB/s | 63.06MB/s | 63.16MB/s | 80.13MB/s |
1.2 导入速率
StarRocks的Broker Load和INSERT INTO SELECT方式性能远超DataX:
- Broker Load:最高速率达153846条/s(23.06MB/s),比DataX(最高19573条/s)快约8倍。
- INSERT INTO SELECT:速率可达169491条/s(78.69MB/s),适合高性能批量导入。
1.3 版本差异
StarRocks 2.5.22在Broker Load中表现最佳(153846条/s),而3.x版本速率略有下降,可能因功能增强带来额外开销。但3.4.3的INSERT INTO SELECT在企业表导入中速率最高(107874条/s),优化了大数据量场景。
1.4 数据表差异
企业信息表因单条数据量更大,导入速率普遍低于股东表(如DataX中企业表速率11109条/s vs 股东表19573条/s),但Broker Load和INSERT INTO SELECT仍能维持较高吞吐。
二、 数据磁盘空间占用分析
2.1 汇总分析表格
数据磁盘空间占用对比 | ||||||
Csv | Hive | Starrocks | ||||
数据表 | 股东信息表 | 企业信息表 | 股东信息表 | 企业信息表 | 股东信息表 | 企业信息表 |
100w数据 | 0.54GB | 0.87GB | 1.51GB | 2.30GB | 0.29GB | 0.60GB |
500w数据 | 2.65GB | 4.25GB | 7.4GB | 11.25GB | 1.47GB | 2.99GB |
1000w数据 | 5.30GB | 8.51GB | 14.80GB | 22.53GB | 2.93GB | 5.97GB |
平均数据大小 | 5.43MB/万 | 8.72MB/万 | 15.11MB/万 | 23.57MB/万 | 2.97MB/万 | 6.14MB/万 |
存储倍率 | 1 | 1 | 2.792 | 2.648 | 0.548 | 0.699 |
10000w数据磁盘空间占用对比 | ||||||
Csv | Hive | Starrocks | ||||
数据表 | 股东信息表 | 企业信息表 | 股东信息表 | 企业信息表 | 股东信息表 | 企业信息表 |
10000w数据 | 54.0GB | 90.9GB | 14.64GB | 31.78GB | 45.34GB | 72.54GB |
平均数据大小 | 5.54MB/万 | 9.31MB/万 | 1.50MB/万 | 3.25MB/万 | 4.62MB/万 | 7.43MB/万 |
存储倍率 | 1 | 1 | 0.271 | 0.35 | 0.84 | 0.798 |
2.2 CSV格式
股东信息表和企业信息表在10000w数据规模下分别占用54.0GB和90.9GB,平均每万条数据占用5.54MB和9.31MB。存储效率最低,未压缩的原始文本格式导致空间占用最大。
2.3 Hive格式
在10000w数据规模下,Hive的存储空间显著低于CSV(股东表14.64GB,企业表31.78GB),存储倍率分别为0.271和0.35。但在100w-1000w数据规模下,Hive的空间占用反而高于CSV(存储倍率2.792和2.648),可能与小数据量下的元数据开销或分区策略有关。
2.4 StarRocks格式
在10000w数据规模下,StarRocks的空间占用介于CSV和Hive之间(股东表45.34GB,企业表72.54GB),但存储倍率优于CSV(0.84和0.798)。小数据量时(100w-1000w),StarRocks的压缩效果更显著,存储倍率低至0.548和0.699,说明其列式存储和编码优化对小数据更高效。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)