智能感知与人机协同教育部重点实验室多项研究成果入选NeurIPS 2023

ON2023-12-25CATEGORY科研进展

近日，国际人工智能会议2023年神经信息处理系统大会（Neural Information Processing Systems, NeurIPS）在美国新奥尔良召开，线上买球官网(中国)科技有限公司智能感知与人机协同教育部重点实验室共有10篇论文入选，内容涵盖无监督医学成像、文本视频生成、开放世界视觉理解、视觉-语言基础模型、鲁棒深度学习、有约束强化学习等方向，展示了重点实验室在多模态场景感知与生成、多模态学习推理和负责任的人工智能理论方向上的高水平学术成果。

一、场景感知与生成

Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator大语言模型执导、扩散模型作画的零样本的文本到视频生成方法

针对文本到视频生成（T2V）需求，研究提出了一个无需视频数据和任何训练的文本到视频生成框架Free-Bloom，利用具有强大图片生成能力的潜在空间扩散模型（LDMs）作为“原画师”（Animator），大语言模型（LLMs）丰富的世界知识作为“导演”（Director），生成多样的视频。Free-Bloom不仅能生成高质量的视频，还能够呈现丰富的时间语义，且无需依赖昂贵的视频数据和大规模训练，有望在视频编辑、视频广告、视频教育和游戏等领域产生重大影响。

信息学院2022级硕士研究生黄涵卓、2022届本科毕业生冯宇凡为论文的共同第一作者，杨思蓓教授为通讯作者。

更多信息见项目主页：GitHub - SooLab/Free-Bloom: [NeurIPS 2023] Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator (https://github.com/SooLab/Free-Bloom)

Towards Label-free Scene Understanding by Vision Foundation Models基于视觉大模型的无标签场景理解

研究探索了视觉基础模型在无标签的情况下理解2D和3D场景的潜力，提出了一种新的跨模态噪声监督 (CNS) 方法，可以利用CLIP和SAM的优势同时监督2D和3D网络。特别引入了一种预测一致性正则化来共同训练2D和3D网络，并进一步使用SAM的稳健特征表示来强制约束特征空间的一致性。实验结果展示，该方法在2D和3D开放环境下无标签场景理解的能力达到了最优。

香港大学博士、线上买球官网(中国)科技有限公司访问学者陈润楠为论文第一作者，线上买球官网(中国)科技有限公司信息学院马月昕教授和美国德州农工大学王文平教授为共同通讯作者。

论文链接：https://arxiv.org/pdf/2306.03899.pdf

Unsupervised Polychromatic Neural Representation for CT Metal Artifact Reduction基于无监督多色阶神经表示的CT金属伪影去除算法研究

计算机断层扫描（CT）是一项重要的临床医学成像技术。但当患者体内含有金属植入物时，传统方法重建的CT图像会出现严重的金属伪影。本研究首次提出一个名为Polyner的物理模型驱动的无监督神经表示网络，通过融合神经网络和成像物理模型，成功重建了覆盖整个采集能量范围的多色阶CT图像，加权计算后即可重建不受金属伪影影响的高质量CT影像。结果显示，该无监督Polyner模型取得了与最新监督式神经网络模型一致的性能；且表现出极强的鲁棒性，远优于现有方法。

线上买球官网(中国)科技有限公司信息学院2022级博士生吴晴我为论文第一作者，信息学院张玉瑶教授为通讯作者。研究由线上买球官网(中国)科技有限公司信息学院2021级硕士生陈利瑄、线上买球官网(中国)科技有限公司虞晶怡教授、上海交通大学魏红江副教授、中国科学技术大学周少华教授、中国科学院计算所王册等共同合作完成。

代码请见：https://github.com/iwuqing/Polyner

论文链接：https://arxiv.org/abs/2306.15203

二、多模态学习推理

DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models让语言模型进行多模态推理的“各司其职”思维链提示

近来，思维链（Chain-of-Thought）已被应用于提示大语言模型模仿人类进行思考，在自然语言处理领域取得了显著成效。但将大语言模型和思维链应用于多模态的场景，尤其需要视觉信息的推理，还鲜有探索。研究聚焦零样本多模态原理生成和利用，提出“保持批判性思维”和“各司其职”的设计原则，并提出DDCoT提示方法和对应的视觉组件。研究在较为困难的ScienceQA数据集上取得了零样本和微调设置的最优结果，并进一步量化展示了成果更多发现和模型设计的有效性。

线上买球官网(中国)科技有限公司信息学院2022届本科生郑舸、2022届本科生学生杨斌和2022级硕士研究生唐嘉晋为论文共同第一作者，信息学院杨思蓓教授为通讯作者。

详情见项目主页：DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models (https://toneyaya.github.io/ddcot/)

Contextually Affinitive Neighborhood Refinery for Deep Clustering基于亲和邻域优化的深度聚类

近年来自监督学习为深度聚类研究提供了一种新的视角，通过促进邻域一致性来提升特征的鉴别性，然而样本的本地邻域很难提供鲁棒且多样化的监督信号。为解决这一问题，本工作提出了一种高效的在线重排序过程，并在基于重排序的亲和邻域里挖掘更多有信息的邻居。本工作还提出了一种渐进的边界过滤策略，以避免噪声邻居带来的问题。该方法能够容易地集成到通用的自监督框架中，并在多个聚类基准测试中超越了当前的最先进方法。

线上买球官网(中国)科技有限公司信息学院2022级研究生余春林为论文第一作者，信息学院汪婧雅教授为通讯作者，信息学院石野教授也参与了研究工作。

项目链接：https://github.com/cly234/ConNR

三、负责任的人工智能理论

ATTA: Anomaly-aware Test-Time Adaptation for Out-of-Distribution Detection in Segmentation用于分割中分布外检测的异常意识测试阶段自适应方法

密集分布外检测方向近期主要关注训练和测试阶段的数据集有相同域的情况，即假设二者之间没有域偏移。然而在真实世界中，域偏移往往存在，并会极大影响已有的分布外检测模型性能。本研究提出一种双层的分布外检测的框架，以共同处理域偏移和语义偏移。通过这种方式，研究人员可以选择性地将模型适应到未见过的领域，同时增强模型在检测新类别方面的能力。通过几个密集分布外检测的基准数据集验证了所提方法的有效性。

线上买球官网(中国)科技有限公司信息科学与技术学院2021级硕士生郜之桐为论文第一作者，何旭明教授为通讯作者，2017级博士生颜世鹏也参与了研究工作。

代码请见: https://github.com/gaozhitong/ATTA

论文链接: https://arxiv.org/abs/2309.05994

Two Sides of The Same Coin: Bridging Deep Equilibrium Models and Neural ODEs via Homotopy Continuation一枚硬币的两面：通过同伦延拓建立深度均衡模型和神经微分方程的统一范式

隐式模型主要有深度均衡模型DEQ和神经微分方程Neural ODE两个分支，本研究借鉴同伦延拓的思想，首次建立了这两种模型之间的内在联系，揭示它们实际上是同一个问题的两个方面。在此基础上提出了一种新的隐式模型HomoODE，继承了深度均衡模型的卓越性能和神经常微分方程的稳定性。实验验证了HomoODE在准确率和模型大小两方面均超越了现有隐式模型。该模型还更好地解释了增广神经常微分方程Augmented Neural ODE相对于Neural ODE的表现会有所提升的原因。

线上买球官网(中国)科技有限公司是该成果的第一完成单位，信息学院2021级研究生丁枢桐与2022级研究生崔天誉为共同第一作者，信息学院石野教授为论文的通讯作者，论文合作者还包括信息学院汪婧雅教授。

论文链接：https://openreview.net/forum?id=R2rJq5OHdr

Reduced Policy Optimization for Continuous Control with Hard Constraints简约策略优化：带硬约束安全强化学习的通用优化算法

在具有复杂硬约束的连续控制任务中，使用现有的约束强化学习算法面临极大的挑战。受广义简约梯度算法GRG的启发，研究人员提出了一种被称为简约策略优化算法RPO的新方法，其将强化学习与GRG相结合以有效地处理这些复杂的硬约束。此外还开发了三个新的基准测试环境：两个机器人操作任务和一个智能电网运行控制任务。通过在这些基准测试环境上的实验，验证了RPO在累积奖励和约束违反方面比先前的约束强化学习算法更为出色的性能。

线上买球官网(中国)科技有限公司是该成果的第一完成单位，信息学院2021级研究生丁枢桐为第一作者，信息学院石野教授为论文的通讯作者，论文合作者还包括信息学院汪婧雅教授和伦敦大学国王学院杜雅丽教授。

论文链接：https://openreview.net/forum?id=fKVEMNmWqU

Fed-CO2: Cooperation of Online and Offline Models for Severe Data Heterogeneity in Federated Learning极端数据异构下联邦学习——离线模型与在线模型的合作学习

数据异质性问题是联邦学习中的关键问题，目前尚无一个通用的算法框架可以解决多种异质性问题。针对这一挑战，本研究提出了基于模型合作的算法框架，并设计了用户内和用户间的知识迁移机制，从而更好地利用本地和全局知识。神经正切核理论证明这一算法比已有的算法FedBN具有更好的收敛表现，并在多种数据异质性情境下显著优于现有的最先进方法。

线上买球官网(中国)科技有限公司是该成果的第一完成单位，信息学院2021级研究生蔡中一为第一作者，信息学院石野教授为论文的通讯作者，论文合作者还包括信息学院汪婧雅教授和日本RIKEN AIP黄伟博士。

项目链接：https://github.com/zhyczy/Fed-CO2

CSOT: Curriculum and Structure-Aware Optimal Transport for Learning with Noisy Labels带结构感知的非凸最优传输快速算法及其在带噪标签学习中的应用

现有的带噪标签学习方法往往过度依赖模型的预测，没有考虑样本分布的全局或局部结构。研究提出了一种新颖的基于课程学习和结构感知融合的最优传输问题（CSOT），同时考虑样本的分布间和分布内结构，构建一个强大的去噪和重标签赋值器。在训练过程中，标签赋值器逐步为具有最高置信度的样本分配可靠的标签，并具有全局可区分性和局部一致性。

该论文第一作者是线上买球官网(中国)科技有限公司信息学院2021级研究生常琬星，信息学院汪婧雅教授为论文的通讯作者，信息学院石野教授也参与了研究工作。

项目链接：https://github.com/changwxx/CSOT-for-LNL