找回密码
 立即注册
楼主: XGundam05

2021年,作为算法工程师的你们会在CV业务落地上用Transformer吗?

[复制链接]
发表于 2021-7-4 13:29 | 显示全部楼层
我做视频分类这一块,由于目前还没有轻量化的transformer-based网络,所以暂时不考虑落地。例如比较TSN和Timesformer,Timesformer训练多出来的10倍用时不如多喂些数据。
当然目前持续关注中。如果有速度接近TSN、TDN的网络会考虑落地。
发表于 2021-7-4 13:33 | 显示全部楼层
非常希望能够落地,但还比较困难,工业上大部分任务用的都是小模型,目前从隔壁组了解到attention层部署的时候还有一些问题,做int8量化的时候会掉很多点,tensorRT和tvm上目前也没有很好的方案,还在研究中
发表于 2021-7-4 13:33 | 显示全部楼层
没有用上,原因如下
部署难,慢 功耗高
不解决痛点问题,对困难场景没啥帮助,提点意义不太大,不如多收集点训练数据


(手机端侧的分类,目标检测,语义分割模型)
发表于 2021-7-4 13:38 | 显示全部楼层
这波transformer的浪潮错过了就再也不会有了,此时不冲更待何时,目测原来cnn的那一套都会被逐步替代。
顺便打个广告,想要在ViT方向搞科研的同学可以联系我,研究实习生的岗位开放中,团队citation上万,老板非常靠谱多篇超高引paper,每天还空着100多张V100,算是大厂中比较适合科研的团队了。
发表于 2021-7-4 13:46 | 显示全部楼层
感觉现在还缺一个详尽可靠的对比实验,来统一大家的认知
盲猜恺明未来会出两篇文章
Rethinking ImageNet Transformer
Rethinking ImageNet Self-Supervised Learning
发表于 2021-7-4 13:51 | 显示全部楼层
已经上线跑了快一年了,当然只是使用了encoder部分,还是自己有过魔改的
发表于 2021-7-4 13:53 | 显示全部楼层
做的细粒度检索,目前在无监督预训练方向,vit的检索效果超过cnn一大截(vit s对比res50),正在尝试finetune效果,如果能达到同比的增长,就有可能落地。
发表于 2021-7-4 13:56 | 显示全部楼层
坐标阿CRO图灵实验室,已经在业务上落地Transformer的cv应用
可以关注下我们最近的工作 Towards Robust Vision Tr ansformer
https://arxiv.org/abs/2105.07926
发表于 2021-7-4 14:02 | 显示全部楼层
事物发展总需要时间,但最终:
沉舟侧畔千帆过,病树前头万木春。
我自测业务上提升明显,推理速度小幅度增加,能接受。
发表于 2021-7-4 14:03 | 显示全部楼层
工程化落地更看重的是可部署性和效率,Transformer的优越性不言而喻:架构优于cnn和rnn以及相对较小的计算资源用于训练模型。


Transformer在机器翻译的工作方式
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-9-21 04:29 , Processed in 0.093709 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表