分享好友 头条首页 频道列表

沈阳自动化所机器视觉研究多篇论文获AAAI2026录用

2025-12-03 10:55450

近日,国际人工智能顶级会议AAAI 2026论文接收结果公布,中国科学院沈阳自动化研究所在机器视觉研究方面的多篇研究论文获录用。

  在多模态大模型视觉生成方面,研究团队提出了一种专家表征对齐的多模态大模型训练框架ARRA,可有效促进大模型学习跨模态表征,实现多任务通用多模态生成。相关研究成果Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment被大会选为口头汇报(Oral)论文,论文第一作者为博士生谢兴,通讯作者为范慧杰研究员与屈靓琼助理教授。

  在多模态大模型方面,研究团队提出了创新的物体分词框架ObjecTok,显著提升了模型以物体为中心的感知与推理能力。相关成果论文为ObjecTok: Learning Holistic and Robust Object Tokens for MLLMs,第一作者为博士生王思翰,通讯作者为刘西瑶副研究员。

  在具身智能操作方面,研究团队提出了一种仿人知识总结与继承的终身学习框架,赋予智能操作机器人持续演进、不断适应新技能的终身学习能力。相关研究成果论文为Lifelong Language-Conditioned Robotic Manipulation Learning,第一作者为博士生王旭东与沈阳自动化所实习生韩泽斌,通讯作者为韩志研究员。

  在具身智能导航方面,研究团队提出了一种基于分层规划策略的导航智能体,可提升智能机器人在复杂大场景中具身导航的鲁棒性。相关研究成果论文为SeqWalker: Sequential-Horizon Vision-and-Language Navigation with Hierarchical Planning,第一作者为沈阳自动化所实习生、中北大学本科生韩泽斌,通讯作者为博士生王旭东。

  在视频定制化生成方面,研究团队提出了一种连续定制化视频扩散模型,可在连续动态空间中实现任意概念的个性化视频生成。相关研究成果论文为Bring Your Dreams to Life: Continual Text-to-Video Customization,第一作者为沈阳自动化所博士毕业生、穆罕默德·本·扎耶德人工智能大学博士后董家华和沈阳自动化所博士生王旭东,通讯作者为韩志研究员。

  在生成式世界模型方面,研究团队提出了首个可用自然语言控制的 4D LiDAR 生成模型,实现了高逼真、可编辑的动态点云场景生成,可用于多种下游感知模型的安全验证和闭环仿真。该研究成果LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences被大会选为口头汇报(Oral)论文,第一作者为博士生梁奥,通讯作者为赵怀慈研究员。

  上述研究成果得到了国家自然科学基金、国家重点研发计划、机器人与智能系统全国重点实验室自主项目、沈阳自动化所基础研究项目等支持。


免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
反对 0
举报 0
收藏 0
打赏 0
评论 0
同类
全流程多场景人工智能融合的电梯制造智能工厂
奥的斯天津泰达生产基地以“全流程多场景人工智能融合应用”为核心,融纳数据湖、数据云仓等为IT底座,整合ERP、MES、PLM等多套信息化系统,在工厂建设、研发、生产、管理全环节深度融合数字化规划、创成式设计、AI

0评论2026-01-2217

我来说两句
抢沙发
客服