国科网

2024-06-26 12:14:46  星期三
立足国科融媒,服务先进科技
达闼与中山大学合作论文被AI顶刊IEEE TPAMI录用,科研实力再获权威肯定!

点赞

0
发布时间:2024年06月12日 浏览量:45次 所属栏目:无人系统 发布者:田佳恬
达闼科技(北京)有限公司

近日,达闼机器人与中山大学合作的研究论文成功被计算机视觉和人工智能领域的顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用

该论文题为《通过大模型进行可纠正地标发现的视觉语言导航》(Correctable Landmark Discovery via Large Models for Vision-Language Navigation),提出了一种名为CONSOLE的新框架,利用大语言模型ChatGPT和视觉模型CLIP解决视觉语言导航中的地标发现问题,通过动态调整地标重要性实现精准导航,并在多个基准测试中显著超越现有技术。

IEEE TPAMI是人工智能、模式识别、计算机视觉等领域的国际顶尖期刊,是目前影响因子最高的CCF A类期刊,JCR 1区Top期刊。该期刊谷歌指数(H-Index)在计算机科学和工程技术两个大类学科里均列首位。IEEE TPAMI以严苛的审稿过程、深刻的理论分析著称,每年收录的论文数量有限,在计算机科学与人工智能领域具有权威影响力。

01

突破性研究:从有限数据到开放世界

视觉语言导航(VLN)要求代理遵循语言指令到达目标位置。传统的VLN方法常常受限于有限的数据集和场景,难以在未知环境中实现准确导航。此次发表的论文提出了一种全新的VLN范式——“通过大模型进行可纠正地标发现”(CONSOLE),旨在解决这一难题。

02

创新方法:融合ChatGPT与CLIP的大模型策略

CONSOLE将VLN视为一个开放世界中的序列地标发现问题,通过引入ChatGPT和CLIP两大模型,实现了前所未有的突破。具体来说,该方法利用ChatGPT提供丰富的开放世界地标共现常识,并基于此进行CLIP驱动的地标发现。这种创新性的组合,不仅提升了模态对齐能力,还有效应对了先验噪声的问题。

为了进一步提高精度,研究团队还设计了一种可学习的共现评分模块,根据实际观测结果校正每个共现的重要性,从而实现更精确的地标发现。此外,他们还提出了一种观察增强策略,将校正后的地标特征融入不同类型VLN代理,以增强其观察特征并优化行动决策。

03

实验验证:多项基准测试创下新纪录

R2R、REVERIE、R4R、RxR等多个主流VLN基准测试中,CONSOLE展现出了压倒性的性能优势,不仅在未见场景下刷新了R2R和R4R的最前沿成果,而且整体成功率远超当前最强基线。这一系列实验结果有力证明了CONSOLE框架的有效性与普适性,为未来智能导航系统的研发指明了方向。

04

行业影响:推动AI技术新高度

IEEE TPAMI作为人工智能、模式识别及计算机视觉等领域最具权威性的期刊之一,其严苛审稿过程和深刻理论分析使得每篇录用论文都具有极高学术价值。本次达闼与中山大学合作成果能获此殊荣,不仅是对其科研实力的一次重要认可,更是对整个行业的一次激励

未来,随着更多类似创新成果不断涌现,我们有理由相信,在不久之后,人类将迎来更加智能、高效、安全的人机交互新时代。而这篇论文无疑将在这一进程中扮演重要角色,为全球AI技术发展贡献力量。

关于达闼科技(北京)有限公司进入企业商铺

分享说明:转发分享请注明出处。

    热点图讯
    最新图讯
    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司