找回密码
 立即注册
查看: 297|回复: 0

被ChatGPT带飞的AIGC,能为垂直产业做些什么?

[复制链接]
发表于 2023-3-6 11:39 | 显示全部楼层 |阅读模式
关注“FightingCV”公众号
回复“AI”即可获得超100G人工智能的教程
点击进入→FightingCV交流群

本文从 AIGC 技术->产品->业务应用和价值实现环节探讨其发展路径,并以产业实例探讨 AIGC 如何才能在产业领域实现闭环和价值落地。

去年以来出现了 AIGC 热潮,引发了 AIGC 及其应用话题的爆发性增长,不少人感慨强人工智能的时代已经离我们不那么遥远了。但是在热潮的另一面,我们看到真正能落地的场景依然是凤毛麟角,目前比较成功的应用主要集中在个人消费领域,而 AIGC 在产业中的应用大多仍然处于探索阶段。


红杉资本在 22 年 9 月就对 AIGC 做出了以下预判:文字类 AI 生成将在 2023 年进入黄金时期,图片类 AI 生成黄金时期将在 2025 年左右抵达,3D 和视频类 AI 生成在 2023 年可能正处于草稿阶段,进入黄金时期或许在 2030 年。不可否认,文字与图片的 AI 生成确实走在了前面,而 3D 模型、视频和游戏生成仍在研发阶段。





红杉资本针对 AIGC 相关产品成熟预测

若考虑到 AIGC 产业应用,如在制造业、建筑业等巨型垂直实体领域中,AIGC 的 C/Content 内容将不能仅停留在图片和文字的领域,而是需要进入信息更为丰富的三维领域。接下来,我们将从 AIGC 技术 -> 产品 -> 业务应用和价值实现环节探讨其发展路径,并以产业实例探讨 AIGC 如何才能在产业领域实现闭环和价值落地。

1.AIGC 技术:从文字到图片

从大家对 ChatGPT 越来越多的测试中可以看到,ChatGPT 不仅能对语义进行解析和结构化,还能在此基础上用 NLP 自然语言处理做数据分析。



ChatGPT 对内容进行结构化处理和数据分析 - 佳格数据提供

事实上,以 Stable Diffusion 为首的一众 AI 画图框架或者平台,在去年更早的时候已经引起了轰动。虽然图片相对文字来说看上去信息含量要更为复杂,但是其技术成熟却要比以 GPT 为首的文字生成来的更早一些,我们有必要从主流的开源框架 Stable Diffusion 为例,回顾一下这些图片 AIGC 框架是如何工作的。



Stable Diffusion 生成的图片, 已经有了比拟人类画家的能力

Stable Diffusion 主要有三个组成部分,每一个部分都有自己的神经网络。

1、CLIP 用于文字编码器:以文字作为输出的语义信息组成一个 77*768 的矩阵,CLIP 训练 AI 同时进行自然语言理解和计算机视觉分析。CLIP 可以决定图像和文字提示的对应程度,比如逐步把建筑的图像和 “建筑” 这个词完全匹配起来,而其能力训练是通过全球 40 多亿张带文字描述的图片实现的。



CLIP 的训练集

2、UNET 及调度程序:这就是大名鼎鼎的扩散模型主程序(来自 CompVis 和 Runway 团队于 2021 年 12 月提出的 “潜在扩散模型”(LDM / Latent Diffusion Model)),用于对噪声进行预测实现反向去噪的过程,进而实现图片在信息空间中的生成。如图片所示,染料扩散的过程就像从图片逐渐变成噪点的过程,而当研究人员对图片增加随机噪点让 AI 反向学习整体过程,而后就拥有了一套从信息空间噪点图反向生成图片的模型。



Diffusion 模型反向去噪过程

用通俗的例子解释,如果在清水里随机滴入一些染料,随着时间推移会得到如下图一样绚丽的形状。那么有没有一种方法,能够根据某一个特定时间特定的状态,反向推出初始的染料用量、顺序、滴入水缸的初始状态等信息呢?显然,如果不借用 AI 的方式几乎无法实现。



不同的染料滴入水中扩散出不同的形状

3、信息空间到真实图片空间的解码器:即把信息空间中的矩阵信息转换为肉眼可见的 RGB 图片。想象一下我们与人交流的过程,听到的声音信号转换为大脑能理解的文字信号存储在脑中,这个过程称之为编码。如果尝试把文字信号通过某种语言表达出来,这个过程可以称为解码 —— 这里的表达方式可以是任意的语言,每种语言对应不同的解码器,解码只是一种表达方式,本质还是基于人类脑海中对于某件事情的描述与理解。



StableDiffusion 从输入到输出全流程解读

正是有了这几个关键技术步骤的串联,Stable Diffusion 成功创建了一个无所不能的 AI 作图机器人,不仅能理解语义,将其转化为信息空间的信息流,还能够在信息空间中通过模拟降噪创作,通过解码器还原成肉眼可见的图片,这一充满科幻色彩的过程放在 AI 不存在的世界来看,堪称神迹。

2.AIGC 技术:从图片到 3D 模型

图片生成已经取得了突破性的效果,但如果这些成果能够进一步优化应用到更多领域,将有可能实现更大价值。我们也看到一些细分领域中的探索成果,比如经由对场景的理解,通过不同的数据集加入和调参,可以实现对图片生成更好的控制,而不仅是通过文字的不断试错来获得更优结果。

2.1 设计意向图生成

2019 年初,用 GANs 生成的「这个 XX 不存在」系列在海外获得大量关注,在国内我们也看到企业推出了在细分领域的成果。而该团队也于 22 年 8 月实验性的在手机端推出了「AI 创意库」,只需要输入一句话,对话机器人就能在一分钟内快速理解语义,生成多张效果细腻贴近建筑概念方案的意向图。在此之上,更是可以通过输入一张已有的图片,修改部分描述的关键字,「AI 创意库」即可生成一系列的衍生图片,辅助设计师在日常创作中寻找灵感。




小库科技「这个建筑不存在」,GANs 模型生成建筑意象图及迭代过程




左图:小库「AI 创意库」生成,触发语句 Louis Kahn 风格,依山傍水的小型博物馆;右图:小库「AI 创意库」生成,基于左图 Louis Kahn 风格图片,完成风格切换至 Le Corbusier

为了使得「AI 创意库」的效果更优,团队做了一些新的探索:由于已有的算法和模型更多聚集在通用互联网素材上,建筑相关的图片、形容及风格的数据储备在专业程度显然是不够的。这里采取了一种针对建筑相关词汇的特殊标识,组成一个微调的先验数据集并将该数据集融合训练,实现模型增强。通过建筑专业领域增强的新模型,形成了面向建筑行业专属的 AI 创意库,针对建筑类描述短句,测试集优品率相比原有模型提升了 13.6% 之多。




Google Dreambooth Fine-Tuning 算法示意

举个例子,当输入一张博物馆图片及一个词汇 "Zaha Hadid(过世的全球著名女建筑师)" 的时候,模型能够理解需要将博物馆的建筑风格或特征往 Zaha Hadid 的作品靠拢,而不是在博物馆中增加一个 Zaha Hadid 的人物或画像,抑或是在 AI 世界里创作一个 Zaha Hadid 的卡通画像 —— 这往往是通用模型会返回的结果之一。




经过微调后的建筑模型,小库「AI 创意库」能充分理解 “Zaha Hadid” 这个特殊词汇隐含意思

2.2 3D 模型生成

二维的图片虽然精彩,但在产业应用中暂时还只是停留在 “意向图库” 的作用,未来如果要成为可以精准表达设计的成果,需要向 3D 和更高信息维度去迈进。

在 2020 年 AIGC 没有现在这么成熟的时候,上述团队就在探索如何用 AI 生成 3D 模型,并在同济大学 DigitalFUTURES 工作坊教学中,公开了其在研发中的从图形生成图像进一步生成模型的算法,能看到当时的模型效果并不太理想,有价值的是实现了图形 - 图像 - 模型的联动。




2020 同济大学 DigitalFUTURES 工作坊小库教学团队成果,手绘图形生成图像进而生成模型


第二年在同济大学 DigitalFUTURES 工作坊教学中,该团队发布了一种通过 GANs 学习卫星图与真实三维模型之间关系,将卫星图生成为真实三维模型的算法。该算法通过对卫星图上不同的图层元素进行特征学习,能大致复原出卫星图所对应的主要物体三维拉伸形体,预测不同物体投影所对应的原物体高度。当然,这种方法还存在一定的缺陷,只能在卫星图场景中使用,难以积累其他场景中同类图片与三维形体之间的关系;其次是还原的三维形体只能粗略预测高度,其他细节需要通过算法重新生成,与真实的三维模型存在较大误差,只能用于项目早期研判使用,应用场景有限。



城市三维模型分层特征提取训练示意图



2021 同济大学 DigitalFUTURES 工作坊小库教学团队成果,基于 GANS 的卫星图重建三维模型

得益于 AIGC 算法的爆发、3D 生成算法的日益成熟,我们也看到垂直类 AI 企业开始吸收更多先进的技术与思路改善其模型,并在 3D-AIGC 的路线上有了一些新的尝试方向。例如 OPENAI 推出了 Point-E 框架,该框架可以将任意二维图片通过算法预测为点云,进而通过点云去预测三维物件。




PointE 框架全过程示意图

但是模型生成的质量依然有一定的局限,而模型的不可用主要体现在以下三个方面:

1. 三维形体还原难:首先二维图像数据比三维模型数据出现早,同时可获取的二维图像数据目前也比后者多,因此前者可作为训练素材的量级更多,较少的三维模型训练素材的泛化能力有限,难以还原最初的三维形体;

2. 材质整体缺失:对于三维模型来说最重要的一环是材质的填充与选择,然而对于AI生成来说,从图片直接推敲其材质的方法尚未成熟,同样材质在不同的形状、环境、光源下的表现都有所不同,而当这些变量都集中在一张图片中时,材质重建几乎不可能实现;

3. 生成的模型精度不达标:通过点云推敲的模型,通常是依赖于点云的密度重建物体表面 Mesh,如果点云过少物体会严重失真,甚至无法重建模型。




小库团队测试 Point- E 模型,左边建筑图片生成点云进而模拟出右边三维模型,遗憾得到的只是一堆无意义的点云模型,Point-E 暂时还无法理解一个建筑物的图片

当然我们能理解当前的技术瓶颈,如果把目标定的稍微低一点,选择从三维建模软件中生成的简单形体、做二维的截图在 point-e 模型中重建,会意外地发现其效果比以上测试更佳,但也仍局限在 “初步草稿” 的范畴。这与训练集有很大的关联性,通过三维建模软件生成各个视角的二维视图是该模型最易获取训练数据的方法之一。



小库团队测试 Point-E 模型,针对建模软件中选取一个简单三维模型做任意角度截图,重建三维模型,往往有还不错的效果

综上来看,从文字 -> 图片 -> 点云 -> 三维物体的技术路线固然令人惊叹,但如果要应用在产业领域,还有很多工作需要 AI 科学家们去做。

然而,是否只有这一条技术路线去实现三维模型的生成?

3 垂直领域 AIGC 应用新思路

在泛领域的大模型研发上以 OpenAI 为首的厂商,包括 Nvidia 和 Google 等巨头也在纷纷推出属于自己自己的通用型 3D-AIGC 框架,遗憾的是目前还处在一个早期阶段。对于垂直实体产业来说,落地应用显然还有很长的路要走。

从全球范围来看,在 3D 模型的生成领域除了泛领域大模型外,部分垂直产业也在探索 AIGC 如何应用落地。比如西门子在引擎的设计和制造中针对生成的模型进行方针模拟和进一步优化,最终通过3D打印实体,实现了3D模型生成现成果交付和业务闭环。



西门子通过生成式算法实现引擎的设计和模拟

这样的成果的实现,有赖于在产业逻辑下的底层业务内容及其数据标准的不断迭代。

按照 ISO/ IEC 给出对内容的数字标准定义 SMART(Standards Machine Applicable, Readable and Transferable 机器可开、可读和可交互标准):L1 级为纸质文本,没有机器交互可能;L2 级为开放数字格式,机器交互性很低;L3 级为机器可读文档,但机器无法理解检索的结果与内容;L4 级为机器可读内容,可做语义交互但机器无法理解上下文的逻辑关系;L5 级,机器可交互内容,可实现自动识别、自动生成等智能属性。

在产业领域中,目前广泛应用 L3 级信息化内容,正在发展 L4 级数字化内容,而 L5 级智能化是工业 4.0 和智能制造的核心基础。因此,生成 L4 级以上机器可读内容,特别是生成 L5 级智能化内容,是未来 AIGC 的方向。




ISO/IEC SMART 数字标准《中国工程科学》2021 年第 23 卷第 6 期《标准数字化发展现状及趋势研究》刘曦泽、王益谊、杜晓燕、李佳、车迪

海外已经在 AIGC 的产业应用领域中开始了实践,而国内的探索仍然比较稀缺,但我们也发现了一些在垂直领域深耕的企业。比如上述提到的,在建筑产业深耕的小库科技团队。我们将以其实践的建筑产业为例,探讨 AIGC 在垂直产业中的落地路径。

当前国内实体经济处于转型的窗口期,国家层面提出 “人工智能与实体经济融合 “的重要任务,各大产业迫切希望 AI 技术能够真正落地,协助产业实现数字化与智能化的升级跃迁,而不是一个停留在概念的 DEMO 产品,或者茶余饭后讨论的好玩趣物。

建筑产业是接近 30 万亿每年的国家支柱型产业,但是其数字化水平在全国各行业中排名倒数第一。当前国家提出智能建造方针,希望迈上 “中国建造” 的新台阶。智能建造是以新型建筑工业化(工业化 / 装配式、数字化、智能化)为基础,基于新一代信息技术与先进建造技术深度融合,贯穿于设计、生产、施工、运维、监管等建设活动各个环节,具有自感知、自决策、自执行、自适应、自学习等特征,旨在优化建筑产业全生命周期质量、效益和核心竞争力的先进建造方式。




2011-2021 年中国建筑业总产值及增长情况 - 国家统计局 - 前瞻产业研究院,




资科来源:Gartner;Kable;经合组织;中央统计局;彭博社;麦肯锡全球研究院分析

而在建筑产业,底层数据标准正从机器可读文档 L3 级的 CAD 时代,向机器可读内容的 L4 级 BIM 时代迈进。建筑产业中对 3D 模型的要求是内容对象具备三维空间中的全维度精确信息,包括模型、数据等维度,如果还能包含规则维度,进而便可使其具备自感知、自学习、自迭代等智能化的能力。目前,L3 级的 CAD 和 L4 级的 BIM 应用软件已经被海外垄断,我们发展的空间和潜力必然集中在了可以高维覆盖低维的 L5 级上。



数字标准 SMART 在建筑领域的内容格式示意

基于对建筑产业数字化变革的洞察,小库团队意识到必须对整个产业的数据底层进行再定义。从 2016 年成立起便致力于 L5 级 3D 模型 AIGC 的底层技术研发及其在建筑产业中的应用。基于一套含有业务流逻辑的 AI 系统生成包含建筑信息与多维数据、3D 模型、以及规则 / 规范 / 规律的 “数 - 模 - 规” 可联动的内容,实现建筑设计方案的智能生成。

这样的底层数据,团队将其称为AI driven Building Information Model on Cloud人工智能生成的云端建筑信息模型(简称 ABC),并将智能生成的达成归结为四个实践步骤:AI 识别现有内容用于训练或结构化数据重建,对数据进行评估和模拟仿真,通过对初步数据成果进行优化,最终生成由系列的 AI 模型组建的业务成果。




L5 级建筑智能格式 ABC 智能云模示意

AI 识别领域,团队通过对千万级的不同业务类型 CAD 图纸数据的清洗和训练,获得了对 L3 级无语义 CAD 图纸的 100% 云端还原与 99.8%* 的准确语义解析和补充,在该领域达到世界先进水平。这项成果已经深度应用到企业的多个产品与解决方案中,比如针对施工图审查的「智能审图」中条文审查准确率约为 96%。



小库施工图构件与空间识别

AI 分析领域,基于对项目的有效识别,针对住宅、商场等常用民用建筑类型,使得团队能够进行物理环境仿真分析、人类行为数据模拟与预测、项目相关大数据的分析和模拟。在应用层面上,可以协助客户进行项目方案量化分析,比如通过对房企全线住宅产品的评估可以得到不同价值评估系数,协助房企提升产品质量。因此,小库科技也被选为中房协户型设计大赛首个 AI 评委。这项能力也被应用于香港和国内十余个商场建筑的开发与运营中。



小库「产品力价值评估」

AI 优化领域,团队认为 “优化” 是基于前序 “识别” 和 “分析 “后的进一步寻优迭代,即基于已有内容的重新生成更优的成果。这类技术已在公司具体的产品和解决方案中得到应用。比如在设计云 2022 版 “智能日照优化” 功能中,小库可以将未通过日照的方案进行自动微调,使其能够在原有格局不进行巨大调整的前提下通过日照验证。这项能力也用在了建筑方案的设计深化中,比如幕墙设计优化场景。在与四川省商业设计院合作的四川某博物馆幕墙项目中,小库算法将原有 3 万多种不规则三角形幕墙板优化为 12 种标准模块,比现有世界水平能降低到的 116 种还减少了 90%,建筑幕墙成本将因为 SKU 和开模数量的降低而得到大幅度降低。



小库「幕墙优化 AI 算法」

AI 生成领域,是智能设计最为核心的部分。对建筑业而言,选择经济适用美观的设计方案、交付安全高效高质量的建造成果,需要多专业、多角色统筹协同完成。不仅需要从宏观尺度、到中观尺度再到微观尺度逐个攻破,还需要在建筑、结构、机电、水暖、景观等多专业逐步覆盖,更需要涵盖住宅、公寓、产业、办公、商业等各种业态类型。因此垂直领域的专业成果生成绝不是某一个模型算法一套数据可以解决的,它需要多模型、多模态、多数据集等多项技术与业务逻辑有机融合,通过契合细分场景的产品设计和基于用户反馈的持续迭代,才能最终实现。

小库团队从业务逻辑出发,对传统建筑设计需要的 24 个业务流程步骤进行梳理,将其核心内容抽取重构为 6 个业务模块,以 AI 系统与云端架构为核心,建立起一套全新的建筑设计 AIGC 业务流程:调(信息调用与AI识别)、做(全AI生成与人机协作生成)、改(人工可改与AI优化)、核(数据核查与AI审查)、协(云端多人协同与业务管理)、出(自动输出更多格式- 3D模型/2D图纸/图像/PPT/Excel等)。



左图:建筑设计原有业务流程 24 个步骤,右图:小库重构为 6 个 AI 加持下的业务流程板块


基于对业务的深刻理解和重构的业务逻辑,在产品设计上将 6 大业务模块与 AI 识别、AI 生成、大数据、云端协同等技术深度融合,实现了建筑规划、单体设计、构件生成等不同深度的建筑业务需求,从分析到设计到审查再到协同与输出,逐步覆盖了住宅类业务所需的广度和深度需求。



「小库设计云 - 建筑规划」产品 6 大模块



「小库设计云 - 建筑单体」产品 6 大模块

4. AIGC 在产业中的价值落地

在大部分产业中,AIGC 的应用仍然处于初级阶段,整体 AI 技术的不断发展将推动后续 AIGC 的创新应用。以当前的建筑产业实践为例,AIGC 目前能够在产生用户可感知价值的部分业务细节场景中,辅助提升对效率有较高要求的具体业务场景,如建筑产业中的投研、设计、评估、管理和建造等环节。

4.1 最优解增益与效率提升

在建筑产业的投研阶段,2021 年出台的 “两集中” 政策(集中供应土地和集中拍地)使大量土地集中在一个月内推出,开发企业需要在短时间内完成对每一块土地的投资评估,其中最核心的是如何在一块地上找到最优的建筑规划方案,获得最大的产品货值和投资回报测算。原本完成一个住宅规划概念方案的时间至少需要 3-5 天,无法满足业务需要,如此就提出了对投前建筑规划方案的极致效率的需求。

小库团队推出 AIGC 的建筑规划方案,只需原来 30% 左右的时间就可以输出初步方案。更重要的是,AI 可以生成和优化一些人没有想到过或难以靠手动穷举推敲出的方案,从而获得性能或经济性方面更优的成果。如在中国金茂的某江西项目中, AI 生成的方案不仅在时间上仅为原有方式的 20%,项目总货值上比原有方案增加了 5600 万。在 2021 年 9 个月的地产拍地市场中,团队累积完成了近千个项目及近万个方案,协助客户成功拿地数十块。



「小库设计云」AI 生成实际住区拿地方案

4.2 成本降低与节能减排

在实际的建筑建造环节,小库团队将 AI 与 DFMA(Design For Manufacture and Assembly 为装配和制造而设计)的设计方法结合,与建筑业巨头中建集团旗下中建科工携手,将箱型装配式建筑与 AI 设计生成、L5 级 ABC “数 - 模 - 规” 联动深度结合,实现了投资 - 方案 - 成本在未实施前的实时联动,减少了 80% 设计和成本变更,并有效降低总体装配式构件 SKU 和开模量,实现 50% 以上节能减排。在获得性能与经济结果更优的同时,将 “原生数据” 与工厂产线、智能建造现场有效打通为 “孪生数据”。在深圳某酒店项目中实现了 4 个月完成从设计到建造,将总工期大幅缩短了至少 14 个月,节省了 60% 以上的时间。



「小库装配云」与中建科工合作的深圳某酒店,全过程智能设计与智能建造)




L5 级智能建造模式与传统模式对比

通过以上案例可以看到,L5 级的 AIGC 可以从数据产生的源头开始,通过在产业链各环节细分场景的具体应用,能够有效辅助产业链获得更高的全生命周期质量、效益和核心竞争力。未来,AIGC 从文字和图片迈向更高维的 3D 和 L5 级内容成果是大势所趋,这不仅是建筑产业对人工智能的未来预期,也是各垂直产业的共同的期待。

注:*在图层无明显错误的基础上,当前小库AI识别针对标准构件(门、窗、墙、楼梯、电梯、空调、消火栓、车位)等识别准确率为99.8%(测试集为上千张建筑平面CAD图纸,图纸来源是数家头部开发商的内部标准库)

参考资料:


  • The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.
  • Robin Rombach, Adreas Blattmann, etal. High-Resolution Image Synthesis with Latent Diffusion Model (CVPR 2022 Oral)
  • Nataniel Ruiz, etal. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (2022)
  • Alex Nichol, Jun H, etal. Point-E: A System for Generating 3D Point Clouds from Complex Prompts(2022)
  • 刘曦泽、王益谊、杜晓燕、李佳、车迪等:ISO/IEC SMART数字标准《中国工程科学》2021年第23卷第6期《标准数字化发展现状及趋势研究》
  • 《中国各行业数字化水平》-麦肯锡全球研究院

往期回顾

基础知识
【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇
【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)

【CV知识点汇总与解析】| 技术发展篇 (超详细!!!)


最新论文解析
NeurIPS2022 Spotlight | TANGO:一种基于光照分解实现逼真稳健的文本驱动3D风格化
ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务
NeurIPS 2022 | VideoMAE:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%
NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归

SlowFast Network:用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!
CVPR2022 | Attention机制是为了找最相关的item?中科大团队反其道而行之!
ECCV2022 Oral | SeqTR:一个简单而通用的 Visual Grounding网络
如何训练用于图像检索的Vision Transformer?Facebook研究员解决了这个问题!
ICLR22 Workshop | 用两个模型解决一个任务,意大利学者提出维基百科上的高效检索模型

See Finer, See More!腾讯&上交提出IVT,越看越精细,进行精细全面的跨模态对比!
MM2022|兼具低级和高级表征,百度提出利用显式高级语义增强视频文本检索
MM2022 | 用StyleGAN进行数据增强,真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022|只能11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!

CVPR2022 Oral|通过多尺度token聚合分流自注意力,代码已开源

CVPR Oral | 谷歌&斯坦福(李飞飞组)提出TIRG,用组合的文本和图像来进行图像检索

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2025-1-23 10:31 , Processed in 0.067409 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表