spark运行报:java.lang.RuntimeException: Error while encoding: java.lang.ArrayIndexOutOfBoundsException:
在使用 spark 读取 Hadoop 的 hdfs 上的 txt 文件,进行相关的操作之后,转为 orc 格式,期间报 java.lang.RuntimeException: Error while encoding: java.lang.ArrayIndexOutOfBoundsException:(......class org.apache.spark.unsafe.types.UTF8S
spark运行报:java.lang.RuntimeException: Error while encoding: java.lang.ArrayIndexOutOfBoundsException:
报错前提:在使用 spark 读取 Hadoop 的 hdfs 上的 txt 文件,进行相关的操作之后,转为 orc 格式,期间报 java.lang.RuntimeException: Error while encoding: java.lang.ArrayIndexOutOfBoundsException:
(…class org.apache.spark.unsafe.types.UTF8String, StringType, fromString, validateexternaltype(…)
具体报错内容(照片有点糊):
最后发现问题是 txt 文件的字体编码格式有问题,它们字符大小不一样,所以在代码里面进行匹配时会报ArrayIndexOutOfBoundsException。我此处 txt 文件正确应该为:UNIX GB2312(Simplified)INS [图2],但上传的 txt 文件为:UTF-8 INS [图3]

图2 ↑
图3 ↓
(附:我用的 notepad++ 打开的,在右下角会有文件的编码格式)
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)