了解torch.nn.init中的正态分布初始化方法

发布时间：2023-12-23 19:11:51

torch.nn.init模块是PyTorch中用于初始化模型参数的模块。其中，正态分布初始化方法是一种常用的参数初始化方法，通过从正态分布中随机抽样来初始化模型参数。在本文中，我将详细介绍torch.nn.init中的正态分布初始化方法，并提供一个使用示例。

torch.nn.init模块中的正态分布初始化方法有两种：normal和xavier_normal。下面分别介绍这两种方法。

1. normal方法

torch.nn.init.normal_(tensor, mean=0, std=1)方法对输入的张量进行正态分布初始化。其中，tensor是需要初始化的张量，mean是正态分布的均值，默认为0，std是正态分布的标准差，默认为1。

使用示例：

import torch
import torch.nn as nn
import torch.nn.init as init

# 初始化一个形状为(3, 3)的张量
tensor = torch.empty(3, 3)
print("Before initialization:")
print(tensor)

# 用正态分布初始化张量
init.normal_(tensor, mean=0, std=1)
print("After initialization:")
print(tensor)

输出结果：

Before initialization:
tensor([[0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000]])
After initialization:
tensor([[ 0.7708, -0.5961, -0.0644],
        [ 1.3783, -0.2262, -0.2658],
        [ 0.2614,  0.7732, -0.8539]])

可以看到，使用normal方法初始化后，张量的值被按照正态分布来填充。

2. xavier_normal方法

torch.nn.init.xavier_normal_(tensor, gain=1)方法对输入的张量进行Xavier正态分布初始化。其中，tensor是需要初始化的张量，gain是用于缩放初始化权重的参数，默认为1。

使用示例：

import torch
import torch.nn as nn
import torch.nn.init as init

# 初始化一个形状为(3, 3)的张量
tensor = torch.empty(3, 3)
print("Before initialization:")
print(tensor)

# 用Xavier正态分布初始化张量
init.xavier_normal_(tensor, gain=1)
print("After initialization:")
print(tensor)

输出结果：

Before initialization:
tensor([[1.6849e-15, 3.4661e-12, 7.2405e+22],
        [7.1547e+31, 1.8292e+25, 4.4721e+21],
        [1.5123e-07, 1.2948e+22, 5.2821e+22]])
After initialization:
tensor([[-0.5184, -0.1212,  0.0441],
        [ 0.6625, -0.3849,  0.4439],
        [-0.0232, -0.1388, -1.0427]])

可以看到，使用xavier_normal方法初始化后，张量的值被按照Xavier正态分布来填充。

正态分布初始化方法是模型参数初始化中的一种常用方法。通过合理地初始化模型参数，可以促进模型的训练和收敛。在实际应用中，常常需要根据具体的任务和模型结构来选择合适的初始化方法。