spark数据处理
主要使用jupyter notebook or databricks导入数据from pyspark.sql import SparkSession#创建一个SparkSession对象来调用spark,如果是在交互式环境中不需要此步骤,可以直接使用sparkspark = SparkSession.builder.appName('data_processing').getOrCreate()#
·
主要使用jupyter notebook or databricks
导入数据
from pyspark.sql import SparkSession
#创建一个SparkSession对象来调用spark,如果是在交互式环境中不需要此步骤,可以直接使用spark
spark = SparkSession.builder.appName('data_processing').getOrCreate()
#本地导入数据
df=spark.read.csv('iris.csv',inferSchema=True,header=True)
基础操作
- columns
df.columns
[‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘class’]
- df.count()
查看数据记录总数
150
-
df.printSchema()
查看列的数据类型和列名 -
df.show(n)
产看数据内容 -
select
查看某些列内容
df.select('sepal_length','class').show(5)
- df.describe()
查看统计指标
df.describe().show()
- df.withColumn
添加新列
df.withColumn("petal_width_*10",df["petal_width"]*10).show(5)
- filter
筛选
df.filter(df["sepal_length"]<4.5).show()
双条件
df.filter(df["sepal_length"]<4.5).filter(df["petal_length"]==1.3).show()
等价于
df.filter((df["sepal_length"]<4.5)&(df["petal_length"]==1.3)).show()
- distinct
非重复值
df.select("class").distinct().show()
- groupby
df.groupBy("class").count().show()

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)