Python数据处理常用函数大全

发布时间：2023-06-25 06:10:55

Python是一种常用的计算机编程语言，在数据处理中非常方便和实用。Python提供了很多数据处理的函数和模块，比如pandas、numpy等。本文将介绍Python数据处理中常用的函数，供大家参考使用。

一、常用的内置函数

1. len()：计算字符串、列表、元组、字典等的长度。

例如：

str = "hello"

length = len(str)

print(length)

#输出：5

2. sorted()：对可迭代对象进行排序。

例如：

lst = [5, 2, 1, 3, 4]

sorted_lst = sorted(lst)

print(sorted_lst)

#输出：[1, 2, 3, 4, 5]

3. sum()：对可迭代对象求和。

例如：

lst = [1, 2, 3, 4, 5]

total = sum(lst)

print(total)

#输出：15

4. abs()：返回数值的绝对值。

例如：

num = -10

absolute = abs(num)

print(absolute)

#输出：10

5. max()：返回可迭代对象中最大的值。

例如：

lst = [2, 5, 1, 6, 3]

max_num = max(lst)

print(max_num)

#输出：6

6. min()：返回可迭代对象中最小的值。

例如：

lst = [2, 5, 1, 6, 3]

min_num = min(lst)

print(min_num)

#输出：1

7. reversed()：倒序迭代。

例如：

lst = [1, 2, 3, 4, 5]

rev_lst = reversed(lst)

print(list(rev_lst))

#输出：[5, 4, 3, 2, 1]

8. enumerate()：返回可迭代对象的迭代器，同时返回每项的索引和值。

例如：

lst = ['a', 'b', 'c']

for index, val in enumerate(lst):

print(index, val)

#输出：

0 a

1 b

2 c

9. zip()：将可迭代对象中对应的元素打包成一个元组，返回由这些元组组成的可迭代对象。

例如：

lst1 = [1, 2, 3]

lst2 = ['a', 'b', 'c']

zipped = zip(lst1, lst2)

print(list(zipped))

#输出：[(1, 'a'), (2, 'b'), (3, 'c')]

10. all()：判断可迭代对象中的所有元素是否为True。

例如：

lst = [True, 1, 'abc']

result = all(lst)

print(result)

#输出：True

二、常用的pandas函数

1. pd.read_csv()：读取csv文件。

例如：

import pandas as pd

data = pd.read_csv('example.csv')

2. df.head()：返回数据框的前n行。默认为前5行。

例如：

import pandas as pd

data = pd.read_csv('example.csv')

print(data.head())

3. df.tail()：返回数据框的后n行。默认为后5行。

例如：

import pandas as pd

data = pd.read_csv('example.csv')

print(data.tail())

4. df.shape()：返回数据框的行数和列数。

例如：

import pandas as pd

data = pd.read_csv('example.csv')

print(data.shape)

5. df.describe()：返回数据框的基本统计信息。

例如：

import pandas as pd

data = pd.read_csv('example.csv')

print(data.describe())

6. df.dropna()：删除缺失数据。

例如：

import pandas as pd

data = pd.read_csv('example.csv')

data.dropna(inplace=True)

7. df.fillna()：填充缺失数据。

例如：

import pandas as pd

data = pd.read_csv('example.csv')

data.fillna(0, inplace=True)

8. df.groupby()：按照指定列进行分组，返回分组后的数据。

例如：

import pandas as pd

data = pd.read_csv('example.csv')

grouped_data = data.groupby('category')

print(grouped_data)

9. df.merge()：按照指定列进行数据合并。

例如：

import pandas as pd

data1 = pd.read_csv('example1.csv')

data2 = pd.read_csv('example2.csv')

merged_data = pd.merge(data1, data2, on='id')

print(merged_data)

10. df.pivot_table()：创建数据透视表。

例如：

import pandas as pd

data = pd.read_csv('example.csv')

pivot_table = data.pivot_table(index=['category'], columns=['month'], values=['sales'])

print(pivot_table)

三、常用的numpy函数

1. np.array()：将列表转化为数组。

例如：

import numpy as np

lst = [1, 2, 3, 4, 5]

arr = np.array(lst)

print(arr)

2. np.zeros()：创建一个由0组成的n维数组。

例如：

import numpy as np

arr = np.zeros((2, 3))

print(arr)

3. np.ones()：创建一个由1组成的n维数组。

例如：

import numpy as np

arr = np.ones((2, 3))

print(arr)

4. np.arange()：创建一个数列。

例如：

import numpy as np

arr = np.arange(0, 6, 2)

print(arr)

5. np.linspace()：创建一个指定范围内的等差数列。

例如：

import numpy as np

arr = np.linspace(0, 1, 5)

print(arr)

6. np.random.rand()：生成随机数。

例如：

import numpy as np

rand_arr = np.random.rand(5)

print(rand_arr)

7. np.max()：返回数组中最大值。

例如：

import numpy as np

arr = np.array([1, 2, 3, 4, 5])

max_num = np.max(arr)

print(max_num)

8. np.min()：返回数组中最小值。

例如：

import numpy as np

arr = np.array([1, 2, 3, 4, 5])

min_num = np.min(arr)

print(min_num)

9. np.mean()：返回数组的平均值。

例如：

import numpy as np

arr = np.array([1, 2, 3, 4, 5])

mean_num = np.mean(arr)

print(mean_num)

10. np.std()：返回数组的标准差。

例如：

import numpy as np

arr = np.array([1, 2, 3, 4, 5])

std_num = np.std(arr)

print(std_num)

总结：

本文介绍了Python数据处理中常用的函数，包括内置函数、pandas函数和numpy函数。这些函数涵盖了数据处理的大部分方面，可以帮助我们轻松地完成各种数据处理任务。