spark数据处理

主要使用jupyter notebook or databricks导入数据from pyspark.sql import SparkSession#创建一个SparkSession对象来调用spark，如果是在交互式环境中不需要此步骤，可以直接使用sparkspark = SparkSession.builder.appName('data_processing').getOrCreate()#

Andy_shenzl

873人浏览 · 2020-07-13 17:13:31

Andy_shenzl · 2020-07-13 17:13:31 发布

主要使用jupyter notebook or databricks

导入数据

from pyspark.sql import SparkSession
#创建一个SparkSession对象来调用spark，如果是在交互式环境中不需要此步骤，可以直接使用spark
spark = SparkSession.builder.appName('data_processing').getOrCreate()
#本地导入数据
df=spark.read.csv('iris.csv',inferSchema=True,header=True)

基础操作

columns
df.columns

[‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘class’]

df.count()
查看数据记录总数

150

df.printSchema()
查看列的数据类型和列名
df.show(n)
产看数据内容
select
查看某些列内容

df.select('sepal_length','class').show(5)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FdGbpWyc-1594631488660)(数据处理.resources/540C6365-DB8B-4C2C-A3C8-BB9EA61F41AC.png)]

df.describe()
查看统计指标

df.describe().show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-O2j4sS3a-1594631488664)(数据处理.resources/0351E67A-09D3-47CB-A426-7D6E3ABF2C04.png)]

df.withColumn
添加新列

df.withColumn("petal_width_*10",df["petal_width"]*10).show(5)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CVEF3fu0-1594631488666)(数据处理.resources/1F63A3D5-CC30-4E01-8E53-4857544DEBF9.png)]

filter
筛选

df.filter(df["sepal_length"]<4.5).show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TOzTJGYY-1594631488672)(数据处理.resources/C4F4D9E7-5E17-4FF2-A1FF-1D48259D457B.png)]
双条件

df.filter(df["sepal_length"]<4.5).filter(df["petal_length"]==1.3).show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o1SjrXf7-1594631488677)(数据处理.resources/731158E9-D7EC-4AC1-914E-938552669674.png)]
等价于

df.filter((df["sepal_length"]<4.5)&(df["petal_length"]==1.3)).show()

distinct
非重复值

df.select("class").distinct().show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6PTkC0nO-1594631488680)(数据处理.resources/D075DF4E-99B2-4160-9BD6-1094A1D848A0.png)]

groupby

df.groupBy("class").count().show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8gn5Ngip-1594631488683)(数据处理.resources/7822D120-E4B1-4DDF-9724-E7254141F055.png)]

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

大数据毕业设计选题推荐-基于大数据的农作物产量数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData

魔乐社区

大模型推理适配实战：手把手带你完成vLLM Ascend迁移实操

魔乐社区

基于python大数据的汽车数据分析系统设计与实现

魔乐社区

所有评论(0)

查看更多评论

Andy_shenzl

@Andy_shenzl

已为社区贡献1条内容