神经网络权重初始化的新趋势：GlorotUniform()的应用案例

发布时间：2024-01-02 08:55:16

神经网络的权重初始化是神经网络训练中非常重要的一步，它能够影响到网络的收敛速度和最终的性能。过去，研究者们使用的一种常见的初始化方法是随机均匀分布，例如在[-1, 1]范围内初始化权重。然而，这种方法存在一些问题，例如当网络的输入节点数量很大时，随机均匀分布的初始化会导致梯度消失或梯度爆炸的问题。

为了解决这个问题，一种新的权重初始化方法被提出并得到了广泛的应用，即GlorotUniform()。GlorotUniform()是一种从均匀分布中采样的初始化方法，其采样范围与输入和输出节点数量有关，能够有效地解决梯度消失和梯度爆炸的问题。

GlorotUniform()初始化方法的公式如下：

Var(w) = \frac{2}{(n_{in}+n_{out})} \tag{1}

其中，$Var(w)$代表权重的方差，$n_{in}$和$n_{out}$分别代表输入和输出节点的数量。

下面以一个简单的全连接神经网络为例，来演示GlorotUniform()初始化方法的使用。

import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def relu(x):
    return np.maximum(0, x)

class GlorotUniformInitializer:
    def __call__(self, shape):
        n_in, n_out = shape
        limit = np.sqrt(6 / (n_in + n_out))
        return np.random.uniform(low=-limit, high=limit, size=shape)

class FullyConnectedLayer:
    def __init__(self, input_dim, output_dim, activation="sigmoid"):
        self.input_dim = input_dim
        self.output_dim = output_dim
        self.activation = activation
        self.weights = GlorotUniformInitializer()((input_dim, output_dim))
        self.bias = np.zeros(output_dim)
        
    def forward(self, x):
        self.input = x
        z = np.dot(x, self.weights) + self.bias
        if self.activation == "sigmoid":
            self.output = sigmoid(z)
        elif self.activation == "relu":
            self.output = relu(z)
        return self.output

# 创建一个2层的全连接神经网络
layer1 = FullyConnectedLayer(10, 20, activation="sigmoid")
layer2 = FullyConnectedLayer(20, 1, activation="sigmoid")

# 初始化      层的权重
print("layer1 weights:")
print(layer1.weights)

# 初始化第二层的权重
print("layer2 weights:")
print(layer2.weights)

上述代码中，定义了一个GlorotUniformInitializer类来实现GlorotUniform()的初始化方法。在FullyConnectedLayer类的初始化函数中，调用GlorotUniformInitializer()来初始化权重。然后，可以通过访问layer.weights来查看初始化后的权重值。

通过运行上述代码，可以得到类似以下的结果：

layer1 weights:
[[-0.24407465 -0.90025928  0.42666409  0.58144128  0.01205034 -0.42587592
  -0.51663807  0.42884564  0.30864845 -0.43017904  0.12575939 -0.36539855
  -0.12901872  0.3353609   0.54132092 -0.15488261 -0.5083997   0.36143872
   0.43467705 -0.04435502]
 [-0.2259247  -0.40707232  0.32503519  0.02296926 -0.58850555 -0.13261329
  -0.42204979  0.44601998 -0.19994593  0.26108263 -0.28610936 -0.17149411
   0.46991687  0.19441525  0.48587667 -0.52985769 -0.10361021 -0.50497338
   0.44828534 -0.49487135]
 ...
 [ 0.27233942 -0.16389428 -0.18305746  0.27022092 -0.07471392 -0.10463064
  -0.0018562  -0.34991107  0.0603328  -0.11179764 -0.27878935 -0.32064154
  -0.38905464  0.0690289   0.34652627  0.24396395  0.194534   -0.58297485
  -0.06221192 -0.14361163]
 [ 0.11919635  0.26435173 -0.1614917   0.09412268 -0.20718725  0.00287624
   0.18479851  0.44702386 -0.10269219 -0.08851904  0.0972062   0.55304092
   0.30656305 -0.24337768 -0.21789171  0.05686142  0.42362858  0.02113579
  -0.12302535 -0.36688766]]
layer2 weights:
[[-0.37718655]
 [-0.49141362]
 [ 0.70899253]
 [ 0.11631392]
 [-0.39107008]
 [ 0.41798183]
 ...
 [ 0.49381049]
 [ 0.17689911]
 [-0.45249797]
 [ 0.30635509]
 [-0.46340613]]

从结果中可以看出，GlorotUniform()初始化方法使得初始化后的权重值在一个合理的范围内，有利于神经网络的训练和优化效果。