Python中的split函数：将字符串分割成一个列表。

发布时间：2023-06-11 18:37:35

Python中的split函数是一个很常用的字符串函数，它用于将字符串分割成一个列表。在本文中，我们将详细介绍split函数的使用方法和举例说明其常见应用场景。

### split函数的基本用法

split函数是字符串对象的一个内置方法，使用方式如下：

str.split(sep=None,maxsplit=-1)

其中，参数sep表示分割符。如果不指定分割符，那么默认的分割符为所有的空字符（空格、换行、制表符等等）。参数maxsplit表示最大分割数。如果指定了这个参数，那么函数会在分割了指定数量的字符串后停止分割。如果参数maxsplit为-1，那么不做数量限制，函数会分割所有可分割的字符串。

下面是一些使用split函数的简单示例：

>>> str = 'abc def ghi'
>>> str.split()
['abc', 'def', 'ghi']
>>> str.split(' ')
['abc', 'def', 'ghi']
>>> str.split(' ', 1)
['abc', 'def ghi']
>>> str.split('f')
['abc de', ' ghi']

从上面的例子中可以看到，split函数返回一个列表，列表中的每个元素都是分割后的子字符串。如果指定了分割符，那么函数会按照分割符对字符串进行分割。如果指定了最大分割数，那么函数会在分割指定数量的字符串后停止分割。

### split函数的高级用法

split函数还支持更灵活的分割方式，可以使用正则表达式作为分割符，也可以使用自定义函数作为分割符。

下面是一些使用split函数高级功能的示例：

1. 使用正则表达式作为分割符

>>> import re
>>> str = '01,31,12,2048'
>>> re.split('\W+', str)
['01', '31', '12', '2048']

在这个示例中，split函数使用正则表达式 '\W+' 作为分割符，这个正则表达式表示任何非字母数字字符。

2. 使用自定义函数作为分割符

>>> def split_at(s):
...     res = []
...     for i, c in enumerate(s):
...         if c in 'aeiou':
...             res.append(s[:i])
...             s = s[i:]
...     res.append(s)
...     return res
...
>>> str = 'beautiful girl'
>>> split_at(str)
['b', 'eautiful', ' g', 'irl']

在这个示例中，我们定义了一个自定义函数split_at，它的作用是将字符串按照元音字母进行分割。在函数中，我们遍历字符串，当遇到元音字母时，将该字符之前的子字符串添加到分割结果列表中。最后，我们将剩余的字符串也添加到列表中，返回整个分割结果。

### split函数的应用场景

split函数是一个非常实用的字符串函数，它可以用于许多常见的应用场景。下面是split函数常见应用场景的一些例子：

1. 解析CSV文件

CSV（Comma-Separated Values）文件是一种常见的文本文件格式，用于存储类似于表格的数据。在CSV文件中，每一行代表一个记录，列之间用逗号分隔。

我们可以使用split函数将一行CSV记录分割成一个列表，然后再进一步处理这个列表，比如将它转化为一个字典。下面是一个解析CSV文件的示例代码：

import csv
 
with open('data.csv', newline='') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    for row in reader:
        print(row)

在这个示例中，我们使用Python内置的csv模块读取CSV文件，然后使用split函数将每一行记录分割成一个列表。

2. 切分URL

在Web开发中，我们经常需要将一个URL（Uniform Resource Locator）切分成一个字典，以便进行后续处理。我们可以使用split函数按照特定的分割符切分URL，然后将切分后的子字符串存储到字典中。下面是一个切分URL的示例代码：

def parse_url(url):
    if url.startswith('http://'):
        url = url[7:]
    elif url.startswith('https://'):
        url = url[8:]
    parts = url.split('/')
    host = parts[0]
    path = '/' + '/'.join(parts[1:])
    result = {'host': host, 'path': path}
    return result

在这个示例中，我们将URL按照斜杠（/）进行分割，然后将分割后的子字符串存储到字典中。

3. tokenization

tokenization是一种常见的自然语言处理的技术，它用于将自然语言文本分割成一个个单词或符号。我们可以使用split函数将一个长句子按照空格进行切分，然后将切分后的单词存储到列表中。下面是一个tokenization的示例代码：

def tokenize(text):
    return text.split()

在这个示例中，我们使用split函数将文本按照空格分割成单个单词。