Hinge loss
在機器學習中,鉸鏈損失是一個用於訓練分類器的損失函數。鉸鏈損失被用於「最大間格分類」,因此非常適合用於支持向量機 (SVM)。[1] 对于一个预期输出 ,分类结果 的鉸鏈損失定義為
特別注意:以上式子的應該使用分類器的「原始輸出」,而非預測標籤。例如,在線性支持向量機當中,,其中 是超平面参数,是輸入資料點。
當和同號(意即分類器的輸出是正確的分類),且 时,鉸鏈損失 。但是,當它們異號(意即分類器的輸出是错误的分類)時, 隨 線性增長。套用相似的想法,如果 ,即使 和 同號(意即分類器的分類正確,但是間隔不足),此時仍然會有損失。
二元支持向量机经常通过一对多(winner-takes-all strategy,WTA SVM)或一对一(max-wins voting,MWV SVM)策略来扩展为多元分类,[2] 铰接损失也可以做出类似的扩展,已有数个不同的多元分类铰接损失的变体被提出。[3] 例如,Crammer 和 Singer [4] 将一个多元线性分类的铰链损失定义为[5]
其中 为目的标签, 和 该模型的参数。
Weston 和 Watkins 提出了一个类似的定义,但使用求和代替了最大值:[6][3]
在结构预测中,铰接损失可以进一步扩展到结构化输出空间。支持间隔调整的结构化支持向量机 可以使用如下所示的铰链损失变体,其中 w 表示SVM的参数, y 为SVM的预测结果,φ 为联合特征函数,Δ 为汉明损失:
铰链损失是一种凸函数,因此许多机器学习中常用的凸优化器均可用于优化铰链损失。 它不是可微函数,但拥有一个关于线性 SVM 模型参数 w 的次导数
然而,由于铰接损失在 处不可导, Zhang 建议在优化时可使用平滑的变体建议,[7] 如Rennie 和 Srebro 提出的分段平滑[8]
Modified Huber loss 是时损失函数的特例,此时 中。
