Python中SQLContext()的聚合函数及使用方法。
发布时间:2023-12-26 15:43:51
在Python中,SQLContext是Spark提供的一个用于操作结构化数据的入口点,它可以通过DataFrame API执行常用的SQL操作。SQLContext具有许多聚合函数用于数据处理和分析。下面是一些常用的聚合函数和使用方法。
1. count:用于计算行数或非空值的数量。
from pyspark.sql import SQLContext
# 创建SQLContext对象
sqlContext = SQLContext(spark)
# 创建DataFrame对象
df = sqlContext.read.csv('data.csv', header=True, inferSchema=True)
# 使用count函数统计行数
count = df.count()
print(count)
2. sum:用于计算某一列的总和。
from pyspark.sql import SQLContext
from pyspark.sql.functions import sum
# 创建SQLContext对象
sqlContext = SQLContext(spark)
# 创建DataFrame对象
df = sqlContext.read.csv('data.csv', header=True, inferSchema=True)
# 使用sum函数计算某一列的总和
total = df.select(sum('col_name')).collect()[0][0]
print(total)
3. avg:用于计算某一列的平均值。
from pyspark.sql import SQLContext
from pyspark.sql.functions import avg
# 创建SQLContext对象
sqlContext = SQLContext(spark)
# 创建DataFrame对象
df = sqlContext.read.csv('data.csv', header=True, inferSchema=True)
# 使用avg函数计算某一列的平均值
average = df.select(avg('col_name')).collect()[0][0]
print(average)
4. min:用于找出某一列的最小值。
from pyspark.sql import SQLContext
from pyspark.sql.functions import min
# 创建SQLContext对象
sqlContext = SQLContext(spark)
# 创建DataFrame对象
df = sqlContext.read.csv('data.csv', header=True, inferSchema=True)
# 使用min函数找出某一列的最小值
minimum = df.select(min('col_name')).collect()[0][0]
print(minimum)
5. max:用于找出某一列的最大值。
from pyspark.sql import SQLContext
from pyspark.sql.functions import max
# 创建SQLContext对象
sqlContext = SQLContext(spark)
# 创建DataFrame对象
df = sqlContext.read.csv('data.csv', header=True, inferSchema=True)
# 使用max函数找出某一列的最大值
maximum = df.select(max('col_name')).collect()[0][0]
print(maximum)
这些只是SQLContext提供的一些常用的聚合函数,还有许多其他的函数用于数据处理和分析,比如distinct、sumDistinct、avgDistinct等。根据具体需求和数据类型,可以选择合适的聚合函数进行操作。
