目前主要是ML,后续添加
池化是一种下采样,CV领域相当于缩小图片,多个点合成一个点。
AdaGrad是一组用于随机优化的次梯度算法。属于该家族的算法类似于二阶随机梯度下降和优化函数的Hessian近似。AdaGrad的名字来自自适应梯度。直观地说,它根据问题的估计几何形状调整每个特征的学习率;特别是,它倾向于将更高的学习率分配给不频繁的特征,这确保了参数更新更少地依赖频率,而更多地依赖相关性。
其中$g_t(x)$是$f_t(x)$的梯度
从没有标签的数据中学习。
自监督学习更类似于人类学习分类的方式。
注意力负采样,课程学习
https://optimization.cbe.cornell.edu/index.php?title=Main_Page
是度量学习,用于预测输入样本之间的相对距离。
$x_a$是锚点样本,正样本对两个样本距离尽可能小,负样本对的距离应该大于某个阈值$m$,$r_a,r_p,r_n$是这些样本的特征表示
损失函数
三元组类型的Randing Loss是正负样本比较
$M$--类别的数量
$y_{ci}$--如果样本i的真实标签等于i则为1,否则为0
$p_{ci}$--观测样本i属于类别c的概率
https://zhuanlan.zhihu.com/p/158853633
$A:B=\sum\limits_{i,j}A_{ij}B_{ij}$