香港中文大学武执政教授做客信息学院智能计算与语言信息处理重点实验室-智能计算与语言信息处理湖南省重点实验室

5月30日上午，应湖南师范大学信息科学与工程学院、智能计算与语言信息处理湖南省重点实验室邀请，香港中文大学武执政教授为大家做了主题为“语音生成大模型与开源系统Amphion”的学术报告。本次报告由信息科学与工程学院肖林副院长主持，科研办组织召开，2022级和2023级研究生及相关老师参加。

首先，武教授向我们介绍了生成式人工智能（AIGC）作为人工智能技术发展的新趋势。现今，诸如ChatGPT、Stable Diffusion等代表着文字和图像应用的技术成为了技术界甚至大众讨论的焦点。比如ChatGPT作为一个基于生成式人工智能的对话模型，展现了强大的语言理解和生成能力，使得与机器进行自然对话成为现实；而Stable Diffusion则是一种基于生成模型的图像编辑技术，通过学习训练数据中的图像分布，实现了图像的多样化生成、插值和编辑。接着，武教授深入探讨了主流语音与音频生成任务的研究趋势，并介绍了最近发布的重要开源框架——Amphion。Amphion的目标是建立一个全面的音频生成平台，旨在协助初学者和工程师们进行音频、音乐以及语音生成等方面的持续研究与开发。武教授指出，Amphion的推出将进一步推动音频技术领域的发展，为从事相关领域研究的人员提供强大的工具和资源支持。同时，Amphion的开源特性也将促进更广泛的合作与创新，为音频生成技术的不断进步做出重要贡献。

报告结束后，武教授和同学们围绕着Amphion框架展开了激烈而富有成果的讨论。大家不仅探讨了框架的可扩展性和适用性的问题，还讨论了Amphion框架在音频生成领域的潜在应用，包括语音合成、音乐生成、环境声效模拟等方面。最后，武教授鼓励大家继续深入研究和探索，将Amphion框架应用到更多领域，并希望通过共同努力，推动音频生成技术的进步，为人类社会带来更多创新和发展。

主讲人简介：

武执政，现任香港中文大学（深圳）副教授。入选国家级青年人才，连续多次入选斯坦福大学“全球前2%顶尖科学家”、爱思唯尔“中国高被引学者”榜单。他于2015年获得南洋理工大学博士学位，并在Meta（原Facebook）、京东、苹果、爱丁堡大学、微软亚洲研究院等机构从事学术研究和技术领导工作。武博士带领开发了语音合成开源系统Merlin，发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测，组织了2019年语音合成国际评测（Blizzard Challeng2019）。曾获得INTERSPEECH 2016最佳学生论文奖、2012年亚太信号与信息处理协会年度峰会最佳论文奖。武博士现为IEEE语音与语言处理技术委员会委员，语音领域权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor, IEEE Signal Processing Letters的Associate Editor, lEEE Spoken Language Technology Workshop 2024的大会主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等权威学术会议做特邀报告。