“过拟合”的版本间的差异

来自软件实验室
跳转至: 导航搜索
(创建页面,内容为“在神经网络训练中,我们不断的训练,可以得到更符合预期的特征值。但是,训练过度,会产生一个什么效应呢,就是过拟合...”)
 
第1行: 第1行:
 
在神经网络训练中,我们不断的训练,可以得到更符合预期的特征值。但是,训练过度,会产生一个什么效应呢,就是过拟合,英文好像叫overfitting.用人来做比喻,适当的自信很重要,但是自信过度就变成了自负,过拟合和自负差不多。
 
在神经网络训练中,我们不断的训练,可以得到更符合预期的特征值。但是,训练过度,会产生一个什么效应呢,就是过拟合,英文好像叫overfitting.用人来做比喻,适当的自信很重要,但是自信过度就变成了自负,过拟合和自负差不多。
 
这样会造成很大的误差。
 
这样会造成很大的误差。
 +
 
用一个图来理解:
 
用一个图来理解:
  
第6行: 第7行:
  
 
第一张到第二张为正常学习,再到第三张,显然已经弯曲了,不符合预期效果,因此,避免过拟合尤为重要。如何避免了?
 
第一张到第二张为正常学习,再到第三张,显然已经弯曲了,不符合预期效果,因此,避免过拟合尤为重要。如何避免了?
我最先想到的是减少训练的次数,可能是训练次数过多,这是很容易想到的;再就是训练的数据量,增大数据量。但是这些都并不能从根本上解决这个问题。官方文单上提供了一个非常好的工具--dropout来解决这个问题。只需要给予它一个不被 drop 掉的百分比,就能很好地降低 overfitting。
 
  
下面说一下这个工具的基本使用:
+
我最先想到的是减少训练的次数,可能是训练次数过多,这是很容易想到的;再就是训练的数据量,增大数据量。但是这些都并不能从根本上解决这个问题。
 +
 
 +
官方文单上提供了一个非常好的工具--dropout来解决这个问题,只需要给予它一个不被 drop 掉的百分比,就能很好地降低 overfitting。dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络,简单点说就是说有的数据抛弃不要。
 +
 
 +
下面来个例子说一下这个工具的基本使用:
 +
 
 +
<nowiki>def dropout(input, keep_prob):
 +
    return tf.nn.dropout(input, keep_prob)
 +
keep_prob = tf.placeholder(tf.float32)</nowiki>
 +
 
 +
intput通常为权重与偏执的函数关系
 +
 
 +
keep_prob是drop率,一般0.5的时候效果最好,原因是有大神交叉验证过,说0.5的时候dropout随机生成的网络结构最多,看下面的图。
 +
 
 +
[[文件:Drop率.png]]
 +
 
 +
这篇博客是深入了解过拟合问题,[http://blog.csdn.net/stdcoutzyx/article/details/49022443 点击这里]

2017年1月9日 (一) 22:05的版本

在神经网络训练中,我们不断的训练,可以得到更符合预期的特征值。但是,训练过度,会产生一个什么效应呢,就是过拟合,英文好像叫overfitting.用人来做比喻,适当的自信很重要,但是自信过度就变成了自负,过拟合和自负差不多。 这样会造成很大的误差。

用一个图来理解:

过拟合.png

第一张到第二张为正常学习,再到第三张,显然已经弯曲了,不符合预期效果,因此,避免过拟合尤为重要。如何避免了?

我最先想到的是减少训练的次数,可能是训练次数过多,这是很容易想到的;再就是训练的数据量,增大数据量。但是这些都并不能从根本上解决这个问题。

官方文单上提供了一个非常好的工具--dropout来解决这个问题,只需要给予它一个不被 drop 掉的百分比,就能很好地降低 overfitting。dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络,简单点说就是说有的数据抛弃不要。

下面来个例子说一下这个工具的基本使用:

def dropout(input, keep_prob):
    return tf.nn.dropout(input, keep_prob)
keep_prob = tf.placeholder(tf.float32)

intput通常为权重与偏执的函数关系

keep_prob是drop率,一般0.5的时候效果最好,原因是有大神交叉验证过,说0.5的时候dropout随机生成的网络结构最多,看下面的图。

Drop率.png

这篇博客是深入了解过拟合问题,点击这里