英伟达华人硬核AI神器,「描述一切」秒变细节狂魔,仅3B逆袭GPT-4o

2025年04月28日 18:29:47 加密货币 互联网
欧易

欧易OKX交易所

全球三大交易所之一,注册领取价值6,0000元数字货币盲盒

APP下载    官网注册

有了AI,谁还愿意用手配「字幕」?GwX币学堂 - AI与大数据驱动的区块链科普平台

刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

论文地址:https://arxiv.org/pdf/2504.16072GwX币学堂 - AI与大数据驱动的区块链科普平台

正如其名Describe Anything,上传一张图,圈哪点哪,它即可生成一段丰富的文字描述。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

即便是一段视频,DAM也能精准捕捉到白色SUV,给出详细的描述。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

DAM是一个专为详细局部标注(DLC)而设计的模型,即为特定区域生成详细且精确的描述。GwX币学堂 - AI与大数据驱动的区块链科普平台

通过两大创新,研究人员在细节与上下文之间找到平衡:GwX币学堂 - AI与大数据驱动的区块链科普平台

· 焦点提示:对目标区域进行高分辨率编码,就像给模型配备了一副「放大镜」,清晰捕捉到局部区域细微特征GwX币学堂 - AI与大数据驱动的区块链科普平台

· 局部视觉骨干网络:将精确定位的特定区域,与上下文无缝整合GwX币学堂 - AI与大数据驱动的区块链科普平台

换句话说,DAM不仅能放大细节看,还能放眼全局看,无论是静态图,还是动态视频,都能做到游刃有余。GwX币学堂 - AI与大数据驱动的区块链科普平台

网友惊叹道,「终极视觉AI突破」!GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

AI用「放大镜」看世界

在项目主页中,英伟达等研究团队放出了更多精彩demo。任何人通过点、框、涂鸦或掩码的交互,即可一键生成描述。GwX币学堂 - AI与大数据驱动的区块链科普平台

上传一张柯基在草地上欢快奔跑的图,选中柯基,让DAM去描述:GwX币学堂 - AI与大数据驱动的区块链科普平台

一只中等体型的狗,拥有浓密的红棕色毛发,腹部和腿部为白色。这只狗尾巴蓬松,耳朵尖立,戴着带有银色吊牌的红色项圈。它张着嘴露出牙齿,舌头伸在外面。狗呈奔跑姿势,前腿向前伸展,后腿向后伸直。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

一只被挤到犄角旮旯的猫星人,DAM是这样配文的,「一只白猫,耳朵呈浅橙色,鼻子是粉色的。猫咪表情放松,眼睛微微闭着,全身覆盖着柔软的白毛」。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

再比如,随手涂鸦一栋高楼,DAM可以不断放大细节,给出这幢楼更细致的描述:GwX币学堂 - AI与大数据驱动的区块链科普平台

一座现代风格的摩天大楼,采用流线型矩形设计,外立面排列着间距均匀的竖向条形窗。建筑呈阶梯式结构,每一层段都比下层略微内缩,形成错落有致的退台造型。建筑幕墙主要由反光玻璃面板构成,整体呈现出极具现代感的抛光效果。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

甚至,DAM看着视频中的一头牛,就能直出一篇经典「小作文」:GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

一幅描绘棕褐色奶牛的动态序列图:这头毛色浓密的奶牛臀部带有浅色斑块,初始画面中它微微低头,透着安详的神态。随着动作展开,奶牛开始稳步前行,四肢舒展着节奏分明的步态,尾梢的簇毛随每一步轻摆,为行进增添流畅韵律。它始终保持挺拔的站姿,略微弓起的背部线条透出放松状态,肌肉结实的腿部稳健地向前迈进。整个运动过程中,奶牛保持着均匀从容的步调,每一个动作都流畅而不迫,展现出宁静自若的生命姿态。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

DAM如此厉害,是如何做到的?GwX币学堂 - AI与大数据驱动的区块链科普平台

DAM技术架构,精准捕捉细节

与传统图像描述(概括整个场景)不同,DLC聚焦于用户指定的局部区域,来生成细致入微的描述。GwX币学堂 - AI与大数据驱动的区块链科普平台

想象一张照片中一只猫,你不仅需要描述「一只猫在窗台上」,还要深入些几「猫的毛发呈现柔软和灰色条纹,耳朵微微倾斜,眼睛在阳光下闪着琥珀色的光芒」。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

可以看出,DLC的目标是捕捉区域的纹理、颜色、形状、显著部件等特征,同时也要保持与整体场景关联。GwX币学堂 - AI与大数据驱动的区块链科普平台

而在视频领域中,DLC挑战更大。GwX币学堂 - AI与大数据驱动的区块链科普平台

模型需要追目标区域在多个帧中的变化,描述其外观、交互、和细微动态的演变。GwX币学堂 - AI与大数据驱动的区块链科普平台

为了应对DLC复杂需求,Describe Anything Model引入了两大核心创新,让局部细节与全局上下文完美平衡。GwX币学堂 - AI与大数据驱动的区块链科普平台

焦点提示(Focal Prompt)GwX币学堂 - AI与大数据驱动的区块链科普平台

通过「焦点提示」机制,DAM能够同时处理全图和目标区域的放大视图。GwX币学堂 - AI与大数据驱动的区块链科普平台

这确保它在捕捉细微特征同时,不丢失整体场景的背景信息。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

局部视觉骨干网络(Localized Vision Backbone)GwX币学堂 - AI与大数据驱动的区块链科普平台

DAM的视觉骨干网络通过空间对齐的图像和掩码,融合全局与局部特征。GwX币学堂 - AI与大数据驱动的区块链科普平台

利用门控交叉注意力层,模型将详细的局部线索与全局上下文无缝整合。GwX币学堂 - AI与大数据驱动的区块链科普平台

新参数初始化为0,保留了预训练能力,从而生成更丰富、更具上下文关联的描述。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

这种架构让DAM在生成关键词、短语,甚至是多句式的复杂描述时,都能保持高精度和连贯性。GwX币学堂 - AI与大数据驱动的区块链科普平台

DLC-SDP:破解数据瓶颈GwX币学堂 - AI与大数据驱动的区块链科普平台

要知道,高质量的DLC数据集极为稀缺,限制了模型的训练。为此,研究团队设计了基于半监督学习的流水线(DLC-SDP),通过两阶段策略构建大规模训练数据。GwX币学堂 - AI与大数据驱动的区块链科普平台

阶段一,是从分割数据集扩展。利用现有分割数据集短标签(猫),通过视觉-语言模型生成丰富的描述(灰色短毛猫,耳朵直立。GwX币学堂 - AI与大数据驱动的区块链科普平台

阶段二,自训练未标记的图像,通过半监督学习,DAM对未标记的网络图像生成初始描述,并迭代精炼,形成高质量的DLC数据。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

DLC-Bench:重定义评估标准

那么,如何公平地评估DLC模型。GwX币学堂 - AI与大数据驱动的区块链科普平台

传统方法主要依赖文本重叠,但这无法全面反映描述的准确性和细节。GwX币学堂 - AI与大数据驱动的区块链科普平台

为此,研究团队提出了全新基准DLC-Bench。通过LLM判断,检查描述的正确细节和错误缺失,而非简单对比文本。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

DAM仅能生成详细描述,还具备强大的灵活性和交互性。GwX币学堂 - AI与大数据驱动的区块链科普平台

指令控制描述GwX币学堂 - AI与大数据驱动的区块链科普平台

你可以根据需求调整描述的详细程度和风格。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

零样本区域问答GwX币学堂 - AI与大数据驱动的区块链科普平台

而且,无需额外训练,DAM就能回答关于特定区域的问题。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

碾压GPT-4o,刷新SOTA

在DLC-Bench和其他7个涵盖图像与视频的基准测试中,DAM全面超越现有模型,树立了新的标杆。GwX币学堂 - AI与大数据驱动的区块链科普平台

如下表2所示,DAM在具有挑战性的 PACO 基准测试中表现出色,创下了89高分。GwX币学堂 - AI与大数据驱动的区块链科普平台

而在零样本评估在短语级数据集Flickr30k Entities上,新模型相比之前的最佳结果平均相对提升了7.34%。GwX币学堂 - AI与大数据驱动的区块链科普平台

此外,零样本评估在详细描述数据Ref-L4 上,DAM在基于短/长语言的描述指标上分别实现了39.5%和13.1%的平均相对提升。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

在研究人员提出的DLC-Bench测试中,DAM在详细局部描述方面优于之前的仅API模型、开源模型和特定区域VLM。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

下表6所示,DAM在详细局部视频字幕方面刷新SOTA。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

总而言之,DAM的优势主要有三大点:更详细、更准确;更少幻觉;多场景适用。GwX币学堂 - AI与大数据驱动的区块链科普平台

它的强大能力为众多应用场景打开了大门,未来诸如数据标注、医疗影像、内容创作等领域,都可以加速落地。GwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

作者介绍

Long (Tony) LianGwX币学堂 - AI与大数据驱动的区块链科普平台

GwX币学堂 - AI与大数据驱动的区块链科普平台

Long (Tony) Lian目前是UC伯克利电子工程与计算机科学博士研究生,师从Adam Yala教授和Trevor Darrell教授。GwX币学堂 - AI与大数据驱动的区块链科普平台

他的研究主要聚焦于,通过强化学习(RL)开发具备推理能力的大模型(LLM)与视觉语言模型(VLM)。GwX币学堂 - AI与大数据驱动的区块链科普平台

此前,他曾在英伟达研究院Deep Imagination Research团队实习。GwX币学堂 - AI与大数据驱动的区块链科普平台

Long (Tony) Lian本科毕业于UC伯克利计算机科学专业,师从Stella Yu教授。GwX币学堂 - AI与大数据驱动的区块链科普平台

参考资料:GwX币学堂 - AI与大数据驱动的区块链科普平台

https://x.com/YinCuiCV/status/1915054443734986912GwX币学堂 - AI与大数据驱动的区块链科普平台

https://describe-anything.github.io/GwX币学堂 - AI与大数据驱动的区块链科普平台

本文来自微信公众号“新智元”,作者:新智元,编辑:桃子,36氪经授权发布。GwX币学堂 - AI与大数据驱动的区块链科普平台

最新区块链知识
孙宇晨将出席迪拜 Token2049 与特朗普次子共话加密未来

孙宇晨将出席迪拜 Token2049 与特朗普次子共话加密未来

波场TRON创始人孙宇晨将出席5月1日在迪拜举办的Token2049峰会上,并与特朗普次子埃里克·特朗普(Eric Trump)进行一场备受瞩目的炉边对话,出席对话的人士还包括特朗普家族支持的

2025年04月28日 0阅读
以太坊提「平方根动态费率」改革!平衡用户与奖励建设者,能抢救社群信心吗?

以太坊提「平方根动态费率」改革!平衡用户与奖励建设者,能抢救社群信心吗?

本文目录以太坊应用层推动「动态收费结构」收入压力下的生态自救动态收费成为链上资本分配新范式?面对生态收入下滑与竞争升温的双重挑战,以太坊社群成员今日提出一项针对应用

2025年04月28日 0阅读
8大项目集体押注MCP,AI Agent将迎来第二波炒作热潮?

8大项目集体押注MCP,AI Agent将迎来第二波炒作热潮?

作者:s4mmy编译:Tim,PANews许多项目正在推出MCP协议,并且获得了广泛关注,这正是将AI智能体与现实世界及彼此连接起来的缺失的一环。以下是我最近关注的一些相关项目:0、MCP是什么?

2025年04月28日 0阅读
币安将调整ALPACAUSDT U本位合约杠杆和保证金

币安将调整ALPACAUSDT U本位合约杠杆和保证金

Odaily星球日报讯 据官方公告,币安合约将于 2025 年 04 月 28 日 14:30(北京时间)更新 ALPACAUSDTU 本位永续合约的杠杆和保证金阶梯,更新将在约 1 小时内完成。请注意:更新前已有

2025年04月28日 0阅读
退市不跌反涨?揭开 ALPACA 背后的资本“轧空剧本”

退市不跌反涨?揭开 ALPACA 背后的资本“轧空剧本”

作者:Fairy,ChainCatcher编辑:TB,ChainCatcher“退市炸弹”变“财富火箭”?4月24日,币安宣布将下架ALPACA代币。按常理,等待ALPACA的应该是抛售、恐慌和暴跌。然而,ALPACA却一反常态

2025年04月28日 0阅读
ALPACA于今日凌晨短时跌超50%,现报0.1781美元

ALPACA于今日凌晨短时跌超50%,现报0.1781美元

4 月 28 日,据行情数据显示,ALPACA 于今日凌晨短时下跌 53%,现报 0.1781 美元。据 Coinglass 数据显示,过去 12 小时全网 ALPACA 爆仓 589 万美元,其中多单爆仓 205 万美元,空单爆

2025年04月28日 0阅读
Grafana 回应此前黑客事件:未发现代码被修改或客户数据泄露

Grafana 回应此前黑客事件:未发现代码被修改或客户数据泄露

Grafana 官方 X 账号发文表示,目前其调查结果显示,未发现任何代码被修改、生产系统遭受未授权访问、客户数据暴露或个人信息被访问的证据。 此前消息,慢雾监测到开源数据可视

2025年04月28日 0阅读
OKX将上线SIGN永续合约

OKX将上线SIGN永续合约

4月28日消息,据官方公告,欧易OKX将于2025年4月28日下午7:30(UTC+8)在网页端、App端及API正式上线SIGNUSDT永续合约,SIGNUSDT合约交易开盘时间:4月28日下午7:30(UTC+8)。 据悉,Si

2025年04月28日 0阅读
Melania团队使用定投策略出售319万枚MELANIA

Melania团队使用定投策略出售319万枚MELANIA

据Lookonchain监测,Melania团队不仅仅是通过增加或移除流动性来出售MELANIA,他们还采用了定投策略进行直接销售。 两天前,他们使用定投策略以4,230枚SOL(63.2万美元)的价格出售

2025年04月28日 0阅读
Binance Wallet:将向Alpha积分达65的用户空投1500枚SIGN

Binance Wallet:将向Alpha积分达65的用户空投1500枚SIGN

Binance Wallet表示,SIGN交易开放日期为4月28日18:00(UTC+8)。所有符合条件(至少65 Alpha积分)的用户将在代币上线后10分钟内在其Alpha账户中收到1,500枚SIGN代币的空投。

2025年04月28日 0阅读
猜你感兴趣
usdt提币手续费哪个交易所最低

usdt提币手续费哪个交易所最低

比特币作为虚拟货币比特币(Bitcoin)是一种以区块链技术为基础的虚拟货币。由于比特币的价值较为波动,许多投资者在交易后会选择将比特币兑换成稳定币,如USDT(Tether)。然而,在提取U

2024年07月24日 143阅读
SELF Crypto (SELF)现在多少钱一枚?SELF币今日价格最新行情

SELF Crypto (SELF)现在多少钱一枚?SELF币今日价格最新行情

截止至2024年04月09日,SELF Crypto (SELF)今日实时最新价格是0.012557美元,约等于人民币0.0908元。 SELF Crypto (SELF)24H最高价$0.013美元,24H最低价$0.0116美元,24H成交额$16

2024年07月24日 151阅读
Hedera (HBAR)币今日实时价格行情最新消息2024年04月07日

Hedera (HBAR)币今日实时价格行情最新消息2024年04月07日

截止至2024年04月07日,Hedera (HBAR)今日实时最新价格是0.1066美元,约等于人民币0.7711元。 Hedera (HBAR)24H最高价$0.1068美元,24H最低价$0.1042美元,24H成交额$19,989,662美

2024年07月24日 140阅读
数字钱包与交易所的简单区分:你知道多少?

数字钱包与交易所的简单区分:你知道多少?

数字钱包与交易所的简单区分:你知道多少? 引言 近年来,随着加密货币的快速发展,越来越多的人开始参与这一新兴市场。在这个过程中,数字钱包和交易所成为了频繁接触的两个名词。然

2024年12月09日 0阅读
区块链骗局有哪些提防区块链中的七种骗局

区块链骗局有哪些提防区块链中的七种骗局

区块链骗局有哪些?提防区块链中的七种骗局随着区块链技术的兴起,人们逐渐意识到其巨大的潜力和优势。然而,区块链作为一种新兴技术,也不免遭受着一些不法分子的利用和滥用。在使

2024年07月24日 188阅读
Kryptomon (KMON)币今日实时价格行情最新消息2024年04月07日

Kryptomon (KMON)币今日实时价格行情最新消息2024年04月07日

截止至2024年04月07日,Kryptomon (KMON)今日实时最新价格是0.017385美元,约等于人民币0.1257元。 Kryptomon (KMON)24H最高价$0.0197美元,24H最低价$0.0171美元,24H成交额$346,1

2024年07月24日 113阅读