近日,数据库与数据挖掘领域重要会议DASFAA 2026(The 31st International Conference on Database Systems for Advanced Applications, DASFAA)在韩国济州岛召开。中国科学技术大学人工智能与数据科学学院师生与上海创智学院、美团合作完成的论文《DynamicPO: Dynamic Preference Optimization for Recommendation》 荣获唯一最佳论文奖( Best Paper Award)。本论文第一作者为胡兴宇(在读博三学生,该工作主要完成于其在我院学习和科研期间),读研期间导师为何向南教授和王翔教授,本论文由胡兴宇和吴剑灿预聘副教授共同担任通讯作者。

图DASFAA 2026组委会授予本届DASFAA会议最佳论文奖(右一:胡兴宇)
DASFAA 是数据库与数据挖掘领域的重要国际学术会议,也是中国计算机学会(CCF)推荐的 B 类会议。DASFAA 2026 聚焦数据库、数据科学与人工智能等前沿方向,涵盖推荐系统、大模型、信息检索与知识图谱等热点议题。DASFAA 2026 投稿量超过 1000 篇,最终录用 228 篇,录用率为 27.3%,其中仅 1 篇获得 Best Paper Award,体现了学术界对该研究问题价值、理论洞察与方法创新性的认可。

图 DASFAA组委会介绍最佳论文评审委员会代表成员信息
本论文研究针对当前大模型推荐系统中多负样本偏好优化存在的关键问题提出了创新性解决方案。现有方法通常认为,引入更多未点击、未交互或被跳过的物品作为负样本,能够提供更丰富的偏好监督信号,从而提升用户偏好建模能力。然而,论文通过系统实验与理论分析发现,当负样本数量增加到一定规模后,模型推荐性能反而可能下降,而训练损失却仍在持续降低。针对这一现象,研究团队揭示并定义了大模型推荐中的“偏好优化坍塌”问题,指出其根本原因在于:经过监督微调后,大量负样本已被模型较好区分;随着负样本规模扩大,这类“已分离”负样本在优化目标中占据主导,稀释了真正接近偏好边界、最有助于提升推荐判别能力的关键负样本信号。为此,研究团队提出 DynamicPO 动态偏好优化方法,通过动态识别最接近模型决策边界、最能暴露偏好歧义的关键负样本,并针对这些边界负样本自适应调整优化强度,以缓解负样本规模扩大后可能出现的偏好优化坍塌,使模型能够在利用多负样本信息的同时,更稳定地细化用户偏好边界。实验结果表明,DynamicPO 能够有效缓解偏好优化坍塌,稳定提升大模型推荐系统的推荐效果,并可灵活集成到多种多负样本偏好优化目标中。整体而言,该研究针对负样本规模扩大后可能出现的偏好优化坍塌问题,提出了以偏好边界为核心的动态优化新思路,为构建更可靠、更高效的大语言模型推荐系统提供了重要方法论支持。

图 DynamicPO缓解多负样本偏好优化的坍塌问题并较好提升性能
此次获奖不仅是对我院相关研究工作的肯定,也体现了学院在人工智能与数据挖掘等方向持续开展前沿探索的成效。学院将以此为契机,进一步加强原创性、引领性研究,为推动人工智能技术的发展作出更大贡献。

图 研究成果在DASFAA2026上进行汇报
