推荐收藏！算法工程师的踩坑总结！

IT圈老男孩1 · 发表于 2022-9-15 11:06

作者Michael，编辑程序员城哥

点击关注 @程序员城哥，专注推荐、NLP、知识图谱、机器学习等领域

作为一名算法工程师，主要是想把自己模型调优和复现算法遇到的一些坑总结一下（里面的一行字可能是我当时花费了一周甚至更长时间得到的总结），希望能对读者有所帮助。喜欢记得收藏、关注、点赞。
注：文末技术、经验交流。
一、熟悉数据

模型是数据的浓缩版----Andrew NG的二八定律，即80%的数据+20%的=更好的AI
对于新上手的一任务来说，需要熟悉你的数据。拿检测任务来说，可以写个可视化代码查看标注是否合理，查看一下待检测物体的大小分布情况（例如anchor的预设），查看一下图片大小，查看类别分布情况（例如是否有极端的分布）等等。
二、算法选型

在接到一个新领域的新任务时，需要调研相关领域算法，对该领域的发展有个大概的了解，掌握一些关键算法（比如历年的SOTA）的思路。虽然调研需要花费一些时间，但是这样在算法选型上可以少做一些实验，性价比是很高的。站在他们的肩膀上就好了。
不太可取的思路：

在指标上太钻牛角尖。有些算法工程师遇到指标在自己数据集效果不太好的情况时，立马换别的算法，或者立马换个backbone，或者立马换个loss去做实验。（需要认真分析为什么效果不好，是自己训练有问题，还是当前数据不太适合该算法，是评测指标不合理，还是评测指标实现有问题。）
不进行相关调研，直接上SOTA算法。这样做会有一些不太理想的问题，比如SOTA可能没有针对自己场景的数据做优化，比如当前任务是小目标居多（通过分析数据得到），虽然SOTA的总的mAP很高，但是small mAP比之前算法还低，那就要慎用。比如SOTA用的是很重的网络，但是任务是速度快，或者速度与效果兼顾，那也应该慎用。

三、基于已有实现来优化算法

对于某个任务在选择好合适的算法以后，如果有相应的效果比较好的开源实现，最好用开源项目进行算法的复现。
这样做的目的：

更方便深入的理解算法的具体细节，比如可能代码在文章没有提到的某些层上偷摸的加了一个shift操作，比如文章提到的一些trick代码根本没有实现，比如代码用了额外的数据训练但文章没有提到，比如文章描述的数据增强方式与代码的实现不一样等。（这些可能发生在开源复现者没有“一比一”复现论文的情况，也可能发生在论文作者自己没有实现的情况）
能快速掌握算法的基础性能，比如复现算法大概的运行速度（特别是文章没给出的时候）和达到的效果
不用自己做一些无用功。要知道重写和调试一份新的模型不仅费时费力，可能还因为文章没有写清楚一些细节，导致你几乎无法复现到相应的结果。

利用开源项目已复现的算法（这里复现不是完全能与代码作者或者文章作者结果一致，可能是数据增强，随机种子导致结果有偏差，但已获取到八九不离十的结果）来改进模型可以有下面几点思路：

代码是否实现了文章一些涨点的trick，如果没有可以尝试
文章一般会分析实验结果，后面会有作者自己的一些观点，他们可能会说明为什么有些情况文章的算法效果较差
有些文章会写他们将来可能的工作，这也是一个改进思路
需要可视化查看实验结果（特别是跑自己的数据集），结果可能与作者在公开数据集展示出的问题不一样，分析效果差的原因

四、从0复现算法

复现算法是一个比较大的工程，这里的大工程不只是指代码多或者工作量大，而是没有一个基础版，导致引入的不可控因素太多调试困难，比如数据接口是否有问题，模型是否搭建正确，训练方式是否存在问题。
在复现算法或者优化算法是比较头疼的是一切训练正常，loss曲线比你想象的还好看，训练了一年后（just kidding， maybe longer），测试一下发现效果奇差无比，都不好意思说是自己写的代码。一年就过去了。
这里有下面一些建议：

尽量测试每一个细节，从数据接口，模型，到loss输出，到最终的评测代码。保证每个部分都可控。
测试数据接口，从单进程，batch为1开始，方便打印数值进行对比。
不要随意的去随机，尽量保证问题可以复现比如先不要加入随机数据增强，模型的随机种子固定。
用少量的数据，这样可以快速的做实验，也可以让模型快速过拟合。模型能过拟合可以大概确定模型是可以学到点什么的。
尽量按照原文来复现，在复现前，先不要过多的添加自己独特的想法。比如训练参数，模型backbone，数据增强方式等等先按照文章来。不清楚的点可以尝试email作者或者寻找相关圈子讨论。
日志打印全，比如解loss为nan的情况，需要知道是forward的导致还是bp导致。

五、一些或许有用的训练建议

保证数据是可靠的
有预训练模型最好用上
通常学习率参数小于1e-5基本没啥用了，比如cosine或者step操作，最后的学习率到1e-5就好了。当然特殊任务不一样
bn在训练时记得打开更新（特别是tf的小伙伴，容易漏），不然可能出现的问题是训练时loss下降很快，测试感觉模型就没收敛
sgd是很棒的，但是实验用adam或许收敛速度更好
如果想要很好的压榨出一个算法的性能，请先保证当前模型能到达相应的性能再去压榨。而不是盲目的换模块，疯狂调参，那样可能只是浪费时间
不要太相信自己的调参技术，在没有一个较好的baseline情况下，调参不会有质的飞跃（除非是之前参数造成了某种bug）
数据小时，使用了预训练模型记得固定前几层的模型参数，还可以用小点的学习率
loss balance有时候很有用
.DL没有像机器学习有那么多公式支撑，很多都是make sense就做个实验来验证，所以尽量多阅读论文，看看别人的实验，这样就可以减少不必要的实验

技术交流群

算法交流、求职内推、干货分享、解惑答疑，与2000+来自港大、北大、腾讯、科大讯飞、阿里等开发者互动学习。
想要技术交流群的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向+学校/公司+知乎，即可。然后就可以拉你进群了。
精选文章

NLP中的数据增强方法！
总结！语义信息检索中的预训练模型
深度梳理：实体关系抽取任务方法及SOTA模型总结！
【NLP】实体关系抽取综述及相关顶会论文介绍
【深度总结】推荐算法中的这些特征工程技巧必须掌握！
12篇顶会论文，深度学习时间序列预测经典方案汇总
一文梳理推荐系统中的特征交互排序模型
Meta AI提出PatchConvNet：利用基于注意力的聚合来增强卷积网络
NeurIPS 2021 | CyGen：基于概率论理论的生成式建模新模式
CIKM2021 ｜ CD-GNN：一种跨领域的图神经网络模型
DeepMind加持的GNN框架正式开源！TensorFlow进入图神经网络时代
我今年89岁，刚刚拿了个物理学博士学位
2021 年最佳开源软件榜单，Python 高性能框架 FastAPI 上榜了！
NeurIPS 2021 | 微软研究院提出CLUES，用于NLU的少样本学习评估

		自动登录	找回密码
密码			立即注册