现象级论文 Train longer, generalize better: closing the generalization gap in large batch training of neural networks 的作者提出了一个很好的替代训练方案。他们意识到 LB 模型所需的更新较少是一把双刃剑,在降低性能的同时提高了成本。然而,通过施“Ghost Batch Normalization”,我们可以得到一些惊人的结果(想想如果你告诉人们你施了 Ghost Batch Normalization,你听起来会多么酷)。
这又增加了一个问题。我们如何确定我们的模型将从中受益的数据点有一些引人注目的方法。我比较近一直在试验的是使用半监督聚类来挑选离质心比较远的样本。这是受到 Meta AI 出版物 Beyond neural scaling laws: beating power law scaling via data pruning 的启发。
应用过滤器并让简单模型完成大部分任务
高效构建和使用大型模型的比较佳方式——不要经常使用它们。相反,让简单的模型/过滤器完成你的大部分任务,只有在绝对需要时才使用你的大型 AI 模型。这在技术上是作弊,但值得一提。太多的数据科学家和机器学习工程师忙于尝试构建完美的模型来完成任务。即使现了,这个模型也可能非常昂贵,因为它必须考虑很多边缘情况。更好的选择是有时放弃一项任务。使用固定规则模型/过滤器来处理这些边缘情况是一个很好的选择。