_collections模块中的defaultdict()函数：更简单地处理字典操作

发布时间：2023-12-29 11:33:25

在Python的_collections模块中，有一个非常有用的函数叫做defaultdict()。这个函数可以更简单地处理字典操作，特别是在处理缺失的键值时。它可以让我们避免使用setdefault()或者判断键是否存在的技巧。

defaultdict()的作用是创建一个字典，如果需要的键不存在，就会使用默认值来代替。默认值的类型可以是int、float、bool、str等基本类型，也可以是自定义的函数或者类。

让我们来看一个简单的例子来理解defaultdict()的使用方法。假设我们要统计一段文字中每个单词出现的次数。我们可以使用一个普通的字典来完成这个任务，代码如下：

text = "This is a sample text that contains sample words"

word_count = {}
for word in text.split():
    if word not in word_count:
        word_count[word] = 0
    word_count[word] += 1

print(word_count)

输出结果为：{'This': 1, 'is': 1, 'a': 1, 'sample': 2, 'text': 1, 'that': 1, 'contains': 1, 'words': 1}

上面的代码中，我们首先创建了一个空字典word_count，然后遍历text字符串的每个单词。如果单词不在字典中，我们就将它加入字典并且将值初始化为0。然后对于每个单词，我们将其值加1。

虽然这个方法可行，但是看起来有些臃肿。我们可以使用defaultdict()函数来使代码更简单：

from collections import defaultdict

text = "This is a sample text that contains sample words"

word_count = defaultdict(int)
for word in text.split():
    word_count[word] += 1

print(word_count)

输出结果为：defaultdict(<class 'int'>, {'This': 1, 'is': 1, 'a': 1, 'sample': 2, 'text': 1, 'that': 1, 'contains': 1, 'words': 1})

在这个例子中，我们首先导入了defaultdict()函数。然后我们传入int作为defaultdict()的参数，表示每个键的默认值为0。

接下来我们使用defaultdict(int)来创建一个空字典word_count，并且将其作为变量名word_count的值。在循环遍历text字符串的每个单词时，如果单词不在字典中，默认值0会被加入字典，并且对于已存在的单词，我们可以直接通过索引加1。

这样，我们不再需要手动处理字典中键的缺失问题，代码也显得更加简洁。

除了int之外，我们还可以使用其他类型来作为defaultdict()的参数。例如，我们可以使用float作为默认值，当统计单词的权重时，可以使用默认值1.0。如果想要统计文本中每个单词出现的位置，可以使用list作为默认值，然后将每个单词的位置加入列表中。

下面是使用float和list作为默认值的两个例子：

from collections import defaultdict

text = "This is a sample text that contains sample words"

word_weights = defaultdict(float)
for word in text.split():
    word_weights[word] += 1.0

print(word_weights)

word_positions = defaultdict(list)
for index, word in enumerate(text.split()):
    word_positions[word].append(index)

print(word_positions)

个例子中，我们使用defaultdict(float)来创建字典word_weights，然后将每个单词的权重加入字典中。

第二个例子中，我们使用defaultdict(list)来创建字典word_positions，然后将每个单词的位置加入字典中。

总之，defaultdict()函数在处理字典操作时可以使代码更加简洁和易读，并且可以避免处理键的缺失情况。在实际的开发过程中，我们经常会用到这个函数来简化代码。