主要使用jupyter notebook or databricks

导入数据

from pyspark.sql import SparkSession
#创建一个SparkSession对象来调用spark,如果是在交互式环境中不需要此步骤,可以直接使用spark
spark = SparkSession.builder.appName('data_processing').getOrCreate()
#本地导入数据
df=spark.read.csv('iris.csv',inferSchema=True,header=True)

基础操作

  • columns
    df.columns

[‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘class’]

  • df.count()
    查看数据记录总数

150

  • df.printSchema()
    查看列的数据类型和列名

  • df.show(n)
    产看数据内容

  • select
    查看某些列内容

df.select('sepal_length','class').show(5)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FdGbpWyc-1594631488660)(数据处理.resources/540C6365-DB8B-4C2C-A3C8-BB9EA61F41AC.png)]

  • df.describe()
    查看统计指标
df.describe().show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-O2j4sS3a-1594631488664)(数据处理.resources/0351E67A-09D3-47CB-A426-7D6E3ABF2C04.png)]

  • df.withColumn
    添加新列
df.withColumn("petal_width_*10",df["petal_width"]*10).show(5)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CVEF3fu0-1594631488666)(数据处理.resources/1F63A3D5-CC30-4E01-8E53-4857544DEBF9.png)]

  • filter
    筛选
df.filter(df["sepal_length"]<4.5).show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TOzTJGYY-1594631488672)(数据处理.resources/C4F4D9E7-5E17-4FF2-A1FF-1D48259D457B.png)]
双条件

df.filter(df["sepal_length"]<4.5).filter(df["petal_length"]==1.3).show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o1SjrXf7-1594631488677)(数据处理.resources/731158E9-D7EC-4AC1-914E-938552669674.png)]
等价于

df.filter((df["sepal_length"]<4.5)&(df["petal_length"]==1.3)).show()
  • distinct
    非重复值
df.select("class").distinct().show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6PTkC0nO-1594631488680)(数据处理.resources/D075DF4E-99B2-4160-9BD6-1094A1D848A0.png)]

  • groupby
df.groupBy("class").count().show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8gn5Ngip-1594631488683)(数据处理.resources/7822D120-E4B1-4DDF-9724-E7254141F055.png)]

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐