报告题目:多模态生成式模型研究
报告时间:2024.3.1(周五) 上午 10:00-12:00
报告地点:计算机与人工智学院二楼学术报告厅
报告人简介:赵洲,浙江大学人才办副主任、计算机学院教授、博士生导师。主要研究方向为自然语言理解、计算机视觉计算和生成式模型,在国际期刊和会议上发表50余篇论文,谷歌学术引用1万多次。完成了多个多模态生成式模型的工作,如生成式语音模型(NATSpeech、DiffSinger、Make-An-Audio)和生成式视觉模型(PNDM、PDAE、GeneFace)等,应用于微软、华为、Stability-ai 和字节等科技公司产品中,获教育部科技进步一等奖、中国电子学会科技进步一等奖。
报告简介: AIGC在最近几个月获得了巨大的突破,用户可以输入自然语言生成图像、视频、音频、甚至是3D模型。现有跨模态语音生成方法在人机交互场景下,存在着合成推理的实时性、可控性和通用性等挑战。针对上述挑战,本次报告主要介绍跨模态生成式语音模型中频谱图合成的并行化推理、多峰性建模、轻量级推理、高表现力建模、泛化学习、多模态可控、多任务通用合成等工作(NATSpeech,DiffSpeech,Make-An-Audio和Geneface)。