损失函数理解汇总,结合 PyTorch1.7 和 TensorFlow2

2020 年 11 月 26 日 深度学习自然语言处理

点击上方,选择星标置顶,每天给你送干货

阅读大概需要8分钟

跟随小博主,每天进步一丢丢


作者丨DengBoCong@知乎
来源丨https://zhuanlan.zhihu.com/p/271911178
编辑丨极市平台
本文仅用于学术分享,如有侵权,请联系后台作删文处理。

本文打算讨论在深度学习中常用的十余种损失函数(含变种),结合PyTorch和TensorFlow2对其概念、公式及用途进行阐述,希望能达到看过的伙伴对各种损失函数有个大致的了解以及使用。本文对原理只是浅尝辄止,不进行深挖,感兴趣的伙伴可以针对每个部分深入翻阅资料。
使用版本:
  • TensorFlow2.3
  • PyTorch1.7.0

01 交叉熵损失(CrossEntropyLoss)

对于单事件的信息量而言,当事件发生的概率越大时,信息量越小,需要明确的是,信息量是对于单个事件来说的,实际事件存在很多种可能,所以这个时候熵就派上用场了,熵是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。交叉熵用来描述两个分布之间的差距,交叉熵越小,假设分布离真实分布越近,模型越好。


在分类问题模型中(不一定是二分类),如逻辑回归、神经网络等,在这些模型的最后通常会经过一个sigmoid函数(softmax函数),输出一个概率值(一组概率值),这个概率值反映了预测为正类的可能性(一组概率值反应了所有分类的可能性)。而对于预测的概率分布和真实的概率分布之间,使用交叉熵来计算他们之间的差距,换句不严谨的话来说,交叉熵损失函数的输入,是softmax或者sigmoid函数的输出。交叉熵损失可以从理论公式推导出几个结论(优点),具体公式推导不在这里详细讲解,如下:

  • 预测的值跟目标值越远时,参数调整就越快,收敛就越快;

  • 不会陷入局部最优解


交叉熵损失函数的标准形式(也就是二分类交叉熵损失)如下:


其中,   表示样本   的标签,正类为1,负类为0,   表示样本   预测为正的概率。

多分类交叉熵损失如下:
其中,   表示类别的数量,   表示变量(0或1),如果该类别和样本   的类别相同就是1,否则是0,   表示对于观测样本   属于类别   的预测概率。

Tensorflow:
  • BinaryCrossentropy[1]:二分类,经常搭配Sigmoid使用
  
  
    
tf.keras.losses.BinaryCrossentropy(from_logits=False, label_smoothing=0, reduction=losses_utils.ReductionV2.AUTO, name='binary_crossentropy')参数:  from_logits:默认False。为True,表示接收到了原始的logits,为False表示输出层经过了概率处理(softmax)  label_smoothing:[0,1]之间浮点值,加入噪声,减少了真实样本标签的类别在计算损失函数时的权重,最终起到抑制过拟合的效果。  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • binary_crossentropy[2]
  
  
    
tf.keras.losses.binary_crossentropy(y_true, y_pred, from_logits=False, label_smoothing=0)参数:  from_logits:默认False。为True,表示接收到了原始的logits,为False表示输出层经过了概率处理(softmax)  label_smoothing:[0,1]之间浮点值,加入噪声,减少了真实样本标签的类别在计算损失函数时的权重,最终起到抑制过拟合的效果。
  • CategoricalCrossentropy[3]:多分类,经常搭配Softmax使用
  
  
    
tf.keras.losses.CategoricalCrossentropy(from_logits=False, label_smoothing=0, reduction=losses_utils.ReductionV2.AUTO, name='categorical_crossentropy')参数:  from_logits:默认False。为True,表示接收到了原始的logits,为False表示输出层经过了概率处理(softmax)  label_smoothing:[0,1]之间浮点值,加入噪声,减少了真实样本标签的类别在计算损失函数时的权重,最终起到抑制过拟合的效果。  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • categorical_crossentropy[4]
  
  
    
tf.keras.losses.categorical_crossentropy(y_true, y_pred, from_logits=False, label_smoothing=0)参数:  from_logits:默认False。为True,表示接收到了原始的logits,为False表示输出层经过了概率处理(softmax)  label_smoothing:[0,1]之间浮点值,加入噪声,减少了真实样本标签的类别在计算损失函数时的权重,最终起到抑制过拟合的效果。
  • SparseCategoricalCrossentropy[5]:多分类,经常搭配Softmax使用,和CategoricalCrossentropy不同之处在于,CategoricalCrossentropy是one-hot编码,而SparseCategoricalCrossentropy使用一个位置整数表示类别
  
  
    
tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False, reduction=losses_utils.ReductionV2.AUTO, name='sparse_categorical_crossentropy')参数:  from_logits:默认False。为True,表示接收到了原始的logits,为False表示输出层经过了概率处理(softmax)  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • sparse_categorical_crossentropy[6]
tf.keras.losses.sparse_categorical_crossentropy(y_true, y_pred, from_logits=False, axis=-1)参数:  from_logits:默认False。为True,表示接收到了原始的logits,为False表示输出层经过了概率处理(softmax)  axis:默认是-1,计算交叉熵的维度
PyTorch:
  • BCELoss[7]
  
  
    
torch.nn.BCELoss(weight: Optional[torch.Tensor] = None, size_average=None, reduce=None, reduction: str = 'mean')参数:  weight:每个分类的缩放权重,传入的大小必须和类别数量一至  size_average:bool类型,为True时,返回的loss为平均值,为False时,返回的各样本的loss之和  reduce:bool类型,返回值是否为标量,默认为True  reduction:string类型,'none' | 'mean' | 'sum'三种参数值
  • BCEWithLogitsLoss[8]:其实和TensorFlow是的`from_logits`参数很像,在BCELoss的基础上合并了Sigmoid
  
  
    
torch.nn.BCEWithLogitsLoss(weight: Optional[torch.Tensor] = None, size_average=None, reduce=None, reduction: str = 'mean', pos_weight: Optional[torch.Tensor] = None)参数:  weight:每个分类的缩放权重,传入的大小必须和类别数量一至  size_average:bool类型,为True时,返回的loss为平均值,为False时,返回的各样本的loss之和  reduce:bool类型,返回值是否为标量,默认为True  reduction:string类型,'none' | 'mean' | 'sum'三种参数值  pos_weight:正样本的权重, 当p>1,提高召回率,当p<1,提高精确度。可达到权衡召回率(Recall)和精确度(Precision)的作用。
  • CrossEntropyLoss[9]

torch.nn.CrossEntropyLoss(weight: Optional[torch.Tensor]

= None, size_average=None, ignore_index: int = -100,

reduce=None, reduction: str = 'mean')

参数:  weight:每个分类的缩放权重,传入的大小必须和类别数量一至  size_average:bool类型,为True时,返回的loss为平均值,为False时,返回的各样本的loss之和  ignore_index:忽略某一类别,不计算其loss,其loss会为0,并且,在采用size_average时,不会计算那一类的loss,除的时候的分母也不会统计那一类的样本  reduce:bool类型,返回值是否为标量,默认为True  reduction:string类型,'none' | 'mean' | 'sum'三种参数值

02 KL散度

我们在计算预测和真实标签之间损失时,需要拉近他们分布之间的差距,即模型得到的预测分布应该与数据的实际分布情况尽可能相近。KL散度(相对熵)是用来衡量两个概率分布之间的差异。模型需要得到最大似然估计,乘以负Log以后就相当于求最小值,此时等价于求最小化KL散度(相对熵)。所以得到KL散度就得到了最大似然。又因为KL散度中包含两个部分,第一部分是交叉熵,第二部分是信息熵,即KL=交叉熵−信息熵。信息熵是消除不确定性所需信息量的度量,简单来说就是真实的概率分布,而这部分是固定的,所以优化KL散度就是近似于优化交叉熵。下面是KL散度的公式:

联系上面的交叉熵,我们可以将公式简化为(KL散度 = 交叉熵 - 熵):

监督学习中,因为训练集中每个样本的标签是已知的,此时标签和预测的标签之间的KL散度等价于交叉熵。


TensorFlow:
  • KLD | kullback_leibler_divergence[10]
tf.keras.losses.KLD(y_truey_pred)
  • KLDivergence[11]
  
  
    
tf.keras.losses.KLDivergence(reduction=losses_utils.ReductionV2.AUTO, name='kl_divergence')参数:  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
Pytorch:
  • KLDivLoss[12]
torch.nn.KLDivLoss(size_average=None, reduce=None, reduction: str = 'mean', log_target: bool = False)参数:  size_average:bool类型,为True时,返回的loss为平均值,为False时,返回的各样本的loss之和  reduce:bool类型,返回值是否为标量,默认为True  reduction-三个值,none: 不使用约简;mean:返回loss和的平均值;sum:返回loss的和。默认:mean  log_target:默认False,指定是否在日志空间中传递目标

03 平均绝对误差(L1范数损失)

L1范数损失函数,也被称为最小绝对值偏差(LAD),最小绝对值误差(LAE)。总的说来,它是把目标值   与估计值   的绝对差值的总和   最小化:
缺点:
  • 梯度恒定,不论预测值是否接近真实值,这很容易导致发散,或者错过极值点。
  • 导数不连续,导致求解困难。这也是L1损失函数不广泛使用的主要原因。
优点:
  • 收敛速度比L2损失函数要快,这是通过对比函数图像得出来的,L1能提供更大且稳定的梯度。
  • 对异常的离群点有更好的鲁棒性,下面会以例子证实。

TensorFlow:
  • MAE | mean_absolute_error[13]
tf.keras.losses.MAE(y_true, y_pred)
  • MeanAbsoluteError[14]
  
  
    
tf.keras.losses.MeanAbsoluteError(reduction=losses_utils.ReductionV2.AUTO, name='mean_absolute_error')参数:  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • MeanAbsolutePercentageError[15]:平均绝对百分比误差
  
  
    
tf.keras.losses.MeanAbsolutePercentageError(reduction=losses_utils.ReductionV2.AUTO, name='mean_absolute_percentage_error')公式:loss = 100 * abs(y_true - y_pred) / y_true参数:  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • MAPE | mean_absolute_percentage_error[16]:平均绝对百分比误差
  
  
    
tf.keras.losses.MAPE(y_true, y_pred)公式:loss = 100 * mean(abs((y_true - y_pred) / y_true), axis=-1)
  • Huber[17]
  
  
    
tf.keras.losses.Huber(delta=1.0, reduction=losses_utils.ReductionV2.AUTO, name='huber_loss')公式:error = y_true - y_pred参数:  delta:float类型,Huber损失函数从二次变为线性的点。  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
PyTorch:
  • L1Loss[18]

torch.nn.L1Loss(size_average=None, reduce=None, reduction: str = 'mean')参数:  size_average:bool类型,为True时,返回的loss为平均值,为False时,返回的各样本的loss之和  reduce:bool类型,返回值是否为标量,默认为True  reduction-三个值,none: 不使用约简;mean:返回loss和的平均值;sum:返回loss的和。默认:mean
  • l1_loss[19]
torch.nn.functional.l1_loss(input, target, size_average=None, reduce=None, reduction='mean')
  • SmoothL1Loss[20]:平滑版L1损失,也被称为 Huber 损失函数。
其中,当   时,   ,否则 
  
  
    
torch.nn.SmoothL1Loss(size_average=None, reduce=None, reduction: str = 'mean', beta: float = 1.0)参数:  size_average:bool类型,为True时,返回的loss为平均值,为False时,返回的各样本的loss之和  reduce:bool类型,返回值是否为标量,默认为True  reduction-三个值,none: 不使用约简;mean:返回loss和的平均值;sum:返回loss的和。默认:mean  beta:默认为1,指定在L1和L2损耗之间切换的阈值
  • smooth_l1_loss[21]
torch.nn.functional.smooth_l1_loss(input, target, size_average=None, reduce=None, reduction='mean', beta=1.0)

04 均方误差损失(L2范数损失)

L2范数损失函数,也被称为最小平方误差(LSE)。总的来说,它是把目标值   与估计值   的差值的平方和   最小化:
缺点:
  • 收敛速度比L1慢,因为梯度会随着预测值接近真实值而不断减小。
  • 对异常数据比L1敏感,这是平方项引起的,异常数据会引起很大的损失。
优点:
  • 它使训练更容易,因为它的梯度随着预测值接近真实值而不断减小,那么它不会轻易错过极值点,但也容易陷入局部最优。
  • 它的导数具有封闭解,优化和编程非常容易,所以很多回归任务都是用MSE作为损失函数。

TensorFlow:
  • MeanSquaredError[22]

tf.keras.losses.MeanSquaredError(reduction=losses_utils.ReductionV2.AUTO, name='mean_squared_error')公式:loss = square(y_true - y_pred)参数:  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • MSE | mean_squared_error[23]
  
  
    
tf.keras.losses.MSE(y_truey_pred)公式:loss = mean(square(y_true - y_pred), axis=-1)
  • MeanSquaredLogarithmicError[24]
tf.keras.losses.MeanSquaredLogarithmicError(reduction=losses_utils.ReductionV2.AUTO, name='mean_squared_logarithmic_error')公式:loss = square(log(y_true + 1.) - log(y_pred + 1.))参数:  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • MSLE | mean_squared_logarithmic_error[25]
tf.keras.losses.MSLE(y_true, y_pred)公式:loss = mean(square(log(y_true + 1) - log(y_pred + 1)), axis=-1)


PyTorch:
  • MSELoss[26]
torch.nn.MSELoss(size_average=None, reduce=None, reduction: str = 'mean')参数:  size_average:bool类型,为True时,返回的loss为平均值,为False时,返回的各样本的loss之和  reduce:bool类型,返回值是否为标量,默认为True  reduction-三个值,none: 不使用约简;mean:返回loss和的平均值;sum:返回loss的和。默认:mean
  • mse_loss[27]
torch.nn.functional.mse_loss(input, target, size_average=None, reduce=None, reduction='mean')

05 Hinge loss

有人把hinge loss称为铰链损失函数,它可用于“最大间隔(max-margin)”分类,其最著名的应用是作为SVM的损失函数。hinge loss专用于二分类问题,标签值   ,预测值   。二分类问题的目标函数的要求如下:当   大于等于   或者小于等于   时,都是分类器确定的分类结果,此时的损失函数loss为0。而当预测值   时,分类器对分类结果不确定,loss不为0。显然,当   时,loss达到最大值。对于输出   ,当前   的损失为:
扩展到多分类问题上就需要多加一个边界值,然后叠加起来。公式如下:

Tensorflow:
  • CategoricalHinge[28]
tf.keras.losses.CategoricalHinge(reduction=losses_utils.ReductionV2.AUTO, name='categorical_hinge')公式:loss = maximum(neg - pos + 1, 0) where neg=maximum((1-y_true)*y_pred) and pos=sum(y_true*y_pred)参数:  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • categorical_hinge[29]
tf.keras.losses.categorical_hinge(y_true, y_pred)公式:loss = maximum(neg - pos + 1, 0) where neg=maximum((1-y_true)*y_pred) and pos=sum(y_true*y_pred)
  • Hinge[30]
tf.keras.losses.Hinge(    reduction=losses_utils.ReductionV2.AUTO, name='hinge')公式:loss = maximum(1 - y_true * y_pred, 0),y_true值应为-11。如果提供了二进制(01)标签,会将其转换为-11参数:  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • hinge[31]
  
  
    
    
    
      
tf.keras.losses.hinge(y_true, y_pred) 公式:loss = mean(maximum(1 - y_true * y_pred, 0), axis=-1)
  • SquaredHinge[32]
  
  
    
tf.keras.losses.SquaredHinge(    reduction=losses_utils.ReductionV2.AUTO, name='squared_hinge')公式:loss = square(maximum(1 - y_true * y_pred, 0)),y_true值应为-11。如果提供了二进制(01)标签,会将其转换为-11参数:  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • squared_hinge[33]
  
  
    
tf.keras.losses.squared_hinge(y_truey_pred)公式:loss = mean(square(maximum(1 - y_true * y_pred, 0)), axis=-1)
PyTorch:
  • HingeEmbeddingLoss[34]:当  时,  ,当  时, 
  
  
    
torch.nn.HingeEmbeddingLoss(margin: float = 1.0, size_average=None, reduce=None, reduction: str = 'mean')参数:  margin:float类型,默认为1.  size_average:bool类型,为True时,返回的loss为平均值,为False时,返回的各样本的loss之和  reduce:bool类型,返回值是否为标量,默认为True  reduction-三个值,none: 不使用约简;mean:返回loss和的平均值;sum:返回loss的和。默认:mean

06 余弦相似度

余弦相似度是机器学习中的一个重要概念,在Mahout等MLlib中有几种常用的相似度计算方法,如欧氏相似度,皮尔逊相似度,余弦相似度,Tanimoto相似度等。其中,余弦相似度是其中重要的一种。余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。

余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感),公式如下:

Tensorflow:
  • CosineSimilarity[35]:请注意,所得值是介于-1和0之间的负数,其中0表示正交性,而接近-1的值表示更大的相似性。如果y_true或y_pred是零向量,则余弦相似度将为0,而与预测值和目标值之间的接近程度无关。
  
  
    
tf.keras.losses.CosineSimilarity(axis=-1, reduction=losses_utils.ReductionV2.AUTO, name='cosine_similarity')公式:loss = -sum(l2_norm(y_true) * l2_norm(y_pred))参数:  axis:默认-1,沿其计算余弦相似度的维  reduction:传入tf.keras.losses.Reduction类型值,默认AUTO,定义对损失的计算方式。
  • cosine_similarity[36]
  
  
    
    
    
      
tf.keras.losses.cosine_similarity(y_true, y_pred, axis=-1) 公式:loss = -sum(l2_norm(y_true) * l2_norm(y_pred)) 参数: axis:默认-1,沿其计算余弦相似度的维
PyTorch:
  • CosineEmbeddingLoss[37]:当  时,  ,当  时, 
  
  
    
torch.nn.CosineEmbeddingLoss(margin: float = 0.0, size_average=None, reduce=None, reduction: str = 'mean')参数:  margin:float类型,应为-11之间的数字,建议为00.5,默认值为0  size_average:bool类型,为True时,返回的loss为平均值,为False时,返回的各样本的loss之和  reduce:bool类型,返回值是否为标量,默认为True  reduction-三个值,none: 不使用约简;mean:返回loss和的平均值;sum:返回loss的和。默认:mean

7 总结

上面这些损失函数是我们在日常中经常使用到的,我将TensorFlow和PyTorch相关的API都贴出来了,也方便查看,可以作为一个手册文章,需要的时候点出来看一下。还有一些其他的损失函数,后续也会都加进来。


外链地址:

[1] https://www.tensorflow.org/api_docs/python/tf/keras/losses/BinaryCrossentropy

[2] https://www.tensorflow.org/api_docs/python/tf/keras/losses/binary_crossentropy

[3] https://www.tensorflow.org/api_docs/python/tf/keras/losses/CategoricalCrossentropy

[4] https://www.tensorflow.org/api_docs/python/tf/keras/losses/categorical_crossentropy

[5] https://www.tensorflow.org/api_docs/python/tf/keras/losses/SparseCategoricalCrossentropy

[6] https://www.tensorflow.org/api_docs/python/tf/keras/losses/sparse_categorical_crossentropy

[7] https://pytorch.org/docs/stable/generated/torch.nn.BCELoss.html

[8] https://pytorch.org/docs/stable/generated/torch.nn.BCEWithLogitsLoss.html

[9] https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html

[10] https://www.tensorflow.org/api_docs/python/tf/keras/losses/KLD

[11] https://www.tensorflow.org/api_docs/python/tf/keras/losses/KLDivergence

[12] https://pytorch.org/docs/stable/generated/torch.nn.KLDivLoss.html

[13] https://www.tensorflow.org/api_docs/python/tf/keras/losses/MAE

[14] https://www.tensorflow.org/api_docs/python/tf/keras/losses/MeanAbsoluteError

[15] https://www.tensorflow.org/api_docs/python/tf/keras/losses/MeanAbsolutePercentageError

[16] https://www.tensorflow.org/api_docs/python/tf/keras/losses/MAPE

[17] https://www.tensorflow.org/api_docs/python/tf/keras/losses/Huber

[18] https://pytorch.org/docs/stable/generated/torch.nn.L1Loss.html

[19] https://pytorch.org/docs/stable/nn.functional.html?highlight=loss#torch.nn.functional.l1_loss

[20] https://pytorch.org/docs/stable/generated/torch.nn.SmoothL1Loss.html

[21] https://pytorch.org/docs/stable/nn.functional.html?highlight=loss#torch.nn.functional.smooth_l1_loss

[22] https://www.tensorflow.org/api_docs/python/tf/keras/losses/MeanSquaredError

[23] https://www.tensorflow.org/api_docs/python/tf/keras/losses/MSE

[24] https://www.tensorflow.org/api_docs/python/tf/keras/losses/MeanSquaredLogarithmicError

[25] https://www.tensorflow.org/api_docs/python/tf/keras/losses/MSLE

[26] https://pytorch.org/docs/stable/generated/torch.nn.MSELoss.html

[27] https://pytorch.org/docs/stable/nn.functional.html?highlight=loss#torch.nn.functional.mse_loss

[28] https://www.tensorflow.org/api_docs/python/tf/keras/losses/CategoricalHinge

[29] https://www.tensorflow.org/api_docs/python/tf/keras/losses/categorical_hinge

[30] https://www.tensorflow.org/api_docs/python/tf/keras/losses/Hinge

[31] https://www.tensorflow.org/api_docs/python/tf/keras/losses/hinge

[32] https://www.tensorflow.org/api_docs/python/tf/keras/losses/SquaredHinge

[33] https://www.tensorflow.org/api_docs/python/tf/keras/losses/squared_hinge

[34] https://pytorch.org/docs/stable/generated/torch.nn.HingeEmbeddingLoss.html

[35] https://www.tensorflow.org/api_docs/python/tf/keras/losses/CosineSimilarity

[36] https://www.tensorflow.org/api_docs/python/tf/keras/losses/cosine_similarity

[37] https://pytorch.org/docs/stable/generated/torch.nn.CosineEmbeddingLoss.html


  
  
    
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!
后台回复【五件套


下载二:南大模式识别PPT
后台回复南大模式识别



说个正事哈



由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注呦


推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记
专辑 | NLP论文解读
专辑 | 情感分析

整理不易,还望给个在看!

登录查看更多
1

相关内容

交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
【模型泛化教程】标签平滑与Keras, TensorFlow,和深度学习
专知会员服务
20+阅读 · 2019年12月31日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
40+阅读 · 2019年10月9日
2019 DR loss(样本不平衡问题)目标检测论文阅读
极市平台
11+阅读 · 2019年10月28日
深度神经网络中的多任务学习汇总
极市平台
10+阅读 · 2019年9月24日
PyTorch 学习笔记(六):PyTorch的十七个损失函数
极市平台
47+阅读 · 2019年5月13日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
从最优化的角度看待 Softmax 损失函数
极市平台
31+阅读 · 2019年2月21日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
论文 | 用于密集对象检测的 Focal Loss 函数
七月在线实验室
9+阅读 · 2018年1月4日
机器学习(19)之支持向量回归机
机器学习算法与Python学习
12+阅读 · 2017年10月3日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
机器学习(13)之最大熵模型详解
机器学习算法与Python学习
7+阅读 · 2017年8月24日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
4+阅读 · 2018年4月30日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
相关资讯
2019 DR loss(样本不平衡问题)目标检测论文阅读
极市平台
11+阅读 · 2019年10月28日
深度神经网络中的多任务学习汇总
极市平台
10+阅读 · 2019年9月24日
PyTorch 学习笔记(六):PyTorch的十七个损失函数
极市平台
47+阅读 · 2019年5月13日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
从最优化的角度看待 Softmax 损失函数
极市平台
31+阅读 · 2019年2月21日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
论文 | 用于密集对象检测的 Focal Loss 函数
七月在线实验室
9+阅读 · 2018年1月4日
机器学习(19)之支持向量回归机
机器学习算法与Python学习
12+阅读 · 2017年10月3日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
机器学习(13)之最大熵模型详解
机器学习算法与Python学习
7+阅读 · 2017年8月24日
Top
微信扫码咨询专知VIP会员