欢迎访问宙启技术站
智能推送

Python数据处理常用函数大全

发布时间:2023-06-25 06:10:55

Python是一种常用的计算机编程语言,在数据处理中非常方便和实用。Python提供了很多数据处理的函数和模块,比如pandas、numpy等。本文将介绍Python数据处理中常用的函数,供大家参考使用。

一、常用的内置函数

1. len():计算字符串、列表、元组、字典等的长度。

例如:

str = "hello"

length = len(str)

print(length)

#输出:5

2. sorted():对可迭代对象进行排序。

例如:

lst = [5, 2, 1, 3, 4]

sorted_lst = sorted(lst)

print(sorted_lst)

#输出:[1, 2, 3, 4, 5]

3. sum():对可迭代对象求和。

例如:

lst = [1, 2, 3, 4, 5]

total = sum(lst)

print(total)

#输出:15

4. abs():返回数值的绝对值。

例如:

num = -10

absolute = abs(num)

print(absolute)

#输出:10

5. max():返回可迭代对象中最大的值。

例如:

lst = [2, 5, 1, 6, 3]

max_num = max(lst)

print(max_num)

#输出:6

6. min():返回可迭代对象中最小的值。

例如:

lst = [2, 5, 1, 6, 3]

min_num = min(lst)

print(min_num)

#输出:1

7. reversed():倒序迭代。

例如:

lst = [1, 2, 3, 4, 5]

rev_lst = reversed(lst)

print(list(rev_lst))

#输出:[5, 4, 3, 2, 1]

8. enumerate():返回可迭代对象的迭代器,同时返回每项的索引和值。

例如:

lst = ['a', 'b', 'c']

for index, val in enumerate(lst):

    print(index, val)

#输出:

0 a

1 b

2 c

9. zip():将可迭代对象中对应的元素打包成一个元组,返回由这些元组组成的可迭代对象。

例如:

lst1 = [1, 2, 3]

lst2 = ['a', 'b', 'c']

zipped = zip(lst1, lst2)

print(list(zipped))

#输出:[(1, 'a'), (2, 'b'), (3, 'c')]

10. all():判断可迭代对象中的所有元素是否为True。

例如:

lst = [True, 1, 'abc']

result = all(lst)

print(result)

#输出:True

二、常用的pandas函数

1. pd.read_csv():读取csv文件。

例如:

import pandas as pd

data = pd.read_csv('example.csv')

2. df.head():返回数据框的前n行。默认为前5行。

例如:

import pandas as pd

data = pd.read_csv('example.csv')

print(data.head())

3. df.tail():返回数据框的后n行。默认为后5行。

例如:

import pandas as pd

data = pd.read_csv('example.csv')

print(data.tail())

4. df.shape():返回数据框的行数和列数。

例如:

import pandas as pd

data = pd.read_csv('example.csv')

print(data.shape)

5. df.describe():返回数据框的基本统计信息。

例如:

import pandas as pd

data = pd.read_csv('example.csv')

print(data.describe())

6. df.dropna():删除缺失数据。

例如:

import pandas as pd

data = pd.read_csv('example.csv')

data.dropna(inplace=True)

7. df.fillna():填充缺失数据。

例如:

import pandas as pd

data = pd.read_csv('example.csv')

data.fillna(0, inplace=True)

8. df.groupby():按照指定列进行分组,返回分组后的数据。

例如:

import pandas as pd

data = pd.read_csv('example.csv')

grouped_data = data.groupby('category')

print(grouped_data)

9. df.merge():按照指定列进行数据合并。

例如:

import pandas as pd

data1 = pd.read_csv('example1.csv')

data2 = pd.read_csv('example2.csv')

merged_data = pd.merge(data1, data2, on='id')

print(merged_data)

10. df.pivot_table():创建数据透视表。

例如:

import pandas as pd

data = pd.read_csv('example.csv')

pivot_table = data.pivot_table(index=['category'], columns=['month'], values=['sales'])

print(pivot_table)

三、常用的numpy函数

1. np.array():将列表转化为数组。

例如:

import numpy as np

lst = [1, 2, 3, 4, 5]

arr = np.array(lst)

print(arr)

2. np.zeros():创建一个由0组成的n维数组。

例如:

import numpy as np

arr = np.zeros((2, 3))

print(arr)

3. np.ones():创建一个由1组成的n维数组。

例如:

import numpy as np

arr = np.ones((2, 3))

print(arr)

4. np.arange():创建一个数列。

例如:

import numpy as np

arr = np.arange(0, 6, 2)

print(arr)

5. np.linspace():创建一个指定范围内的等差数列。

例如:

import numpy as np

arr = np.linspace(0, 1, 5)

print(arr)

6. np.random.rand():生成随机数。

例如:

import numpy as np

rand_arr = np.random.rand(5)

print(rand_arr)

7. np.max():返回数组中最大值。

例如:

import numpy as np

arr = np.array([1, 2, 3, 4, 5])

max_num = np.max(arr)

print(max_num)

8. np.min():返回数组中最小值。

例如:

import numpy as np

arr = np.array([1, 2, 3, 4, 5])

min_num = np.min(arr)

print(min_num)

9. np.mean():返回数组的平均值。

例如:

import numpy as np

arr = np.array([1, 2, 3, 4, 5])

mean_num = np.mean(arr)

print(mean_num)

10. np.std():返回数组的标准差。

例如:

import numpy as np

arr = np.array([1, 2, 3, 4, 5])

std_num = np.std(arr)

print(std_num)

总结:

本文介绍了Python数据处理中常用的函数,包括内置函数、pandas函数和numpy函数。这些函数涵盖了数据处理的大部分方面,可以帮助我们轻松地完成各种数据处理任务。