报告题目:大模型知识机制:特征是比神经元更好的研究单元
报 告 人:赵军
报告时间:2025年5月11日 星期日9:30-11:00
报告地点:计算机与人工智能学院学术报告厅
摘要:
预训练语言模型知识机制分析是人工智能领域的热点研究方向。本报告提出:在理解语言模型的事实知识机制时,特征(features)是比神经元(neurons)更为有效的分析单元。以往的研究利用神经元作为分析单位,但神经元存在多义性问题,导致知识表达能力有限且可解释性差。本研究首先验证了稀疏自编码器SAE可以有效地将神经元分解为特征。基于此,我们揭示了特征相比神经元的三个优势:(1)特征对知识表达的影响更强,可解释性更优;(2)特征表现出更强的单义性;(3)基于特征的方法在擦除隐私信息的下游任务中,优于基于神经元的方法。
报告人简介:
赵军, 中国科学院自动化研究所二级研究员,博士生导师;中国科学院大学人工智能学院岗位教授;享受国务院政府特殊津贴专家;研究领域为自然语言处理、大模型、知识工程等。作为项目负责人承担科技创新2030-新一代人工智能重大项目、国家自然科学基金重点项目、国家自然科学基金联合基金重点支持项目等科研项目。在NIPS、ACL、ICLR、AAAI等重要国际会议和学术期刊上发表论文100余篇,Google Scholar总引用超过27000次;曾获第25届国际计算语言学大会最佳论文奖,第22届国际语义网大会最佳张贴论文奖;曾获中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖(第一完成人)、北京市科学技术进步奖一等奖(第一完成人),中国科学院大学朱李月华优秀教师奖。兼任中国中文信息学会常务理事等学术职务。