2021年，作为算法工程师的你们会在CV业务落地上用Transformer吗？

BlaXuan · 发表于 2021-7-4 13:29

我做视频分类这一块，由于目前还没有轻量化的transformer-based网络，所以暂时不考虑落地。例如比较TSN和Timesformer，Timesformer训练多出来的10倍用时不如多喂些数据。
当然目前持续关注中。如果有速度接近TSN、TDN的网络会考虑落地。

NoiseFloor · 发表于 2021-7-4 13:33

非常希望能够落地，但还比较困难，工业上大部分任务用的都是小模型，目前从隔壁组了解到attention层部署的时候还有一些问题，做int8量化的时候会掉很多点，tensorRT和tvm上目前也没有很好的方案，还在研究中

七彩极 · 发表于 2021-7-4 13:33

没有用上，原因如下
部署难，慢功耗高
不解决痛点问题，对困难场景没啥帮助，提点意义不太大，不如多收集点训练数据

（手机端侧的分类，目标检测，语义分割模型）

七彩极 · 发表于 2021-7-4 13:38

这波transformer的浪潮错过了就再也不会有了，此时不冲更待何时，目测原来cnn的那一套都会被逐步替代。
顺便打个广告，想要在ViT方向搞科研的同学可以联系我，研究实习生的岗位开放中，团队citation上万，老板非常靠谱多篇超高引paper，每天还空着100多张V100，算是大厂中比较适合科研的团队了。

HuldaGnodim · 发表于 2021-7-4 13:46

感觉现在还缺一个详尽可靠的对比实验，来统一大家的认知
盲猜恺明未来会出两篇文章
Rethinking ImageNet Transformer
Rethinking ImageNet Self-Supervised Learning

Baste · 发表于 2021-7-4 13:51

已经上线跑了快一年了，当然只是使用了encoder部分，还是自己有过魔改的

TheLudGamer · 发表于 2021-7-4 13:53

做的细粒度检索，目前在无监督预训练方向，vit的检索效果超过cnn一大截（vit s对比res50），正在尝试finetune效果，如果能达到同比的增长，就有可能落地。

johnsoncodehk · 发表于 2021-7-4 13:56

坐标阿CRO图灵实验室，已经在业务上落地Transformer的cv应用
可以关注下我们最近的工作 Towards Robust Vision Tr ansformer
https://arxiv.org/abs/2105.07926

KaaPexei · 发表于 2021-7-4 14:02

事物发展总需要时间，但最终：
沉舟侧畔千帆过，病树前头万木春。
我自测业务上提升明显，推理速度小幅度增加，能接受。

franciscochonge · 发表于 2021-7-4 14:03

工程化落地更看重的是可部署性和效率，Transformer的优越性不言而喻：架构优于cnn和rnn以及相对较小的计算资源用于训练模型。

Transformer在机器翻译的工作方式

		自动登录	找回密码
密码			立即注册