5月30日上午,应湖南师范大学信息科学与工程学院、智能计算与语言信息处理湖南省重点实验室邀请,香港中文大学武执政教授为大家做了主题为“语音生成大模型与开源系统Amphion”的学术报告。本次报告由信息科学与工程学院肖林副院长主持,科研办组织召开,2022级和2023级研究生及相关老师参加。
首先,武教授向我们介绍了生成式人工智能(AIGC)作为人工智能技术发展的新趋势。现今,诸如ChatGPT、Stable Diffusion等代表着文字和图像应用的技术成为了技术界甚至大众讨论的焦点。比如ChatGPT作为一个基于生成式人工智能的对话模型,展现了强大的语言理解和生成能力,使得与机器进行自然对话成为现实;而Stable Diffusion则是一种基于生成模型的图像编辑技术,通过学习训练数据中的图像分布,实现了图像的多样化生成、插值和编辑。接着,武教授深入探讨了主流语音与音频生成任务的研究趋势,并介绍了最近发布的重要开源框架——Amphion。Amphion的目标是建立一个全面的音频生成平台,旨在协助初学者和工程师们进行音频、音乐以及语音生成等方面的持续研究与开发。武教授指出,Amphion的推出将进一步推动音频技术领域的发展,为从事相关领域研究的人员提供强大的工具和资源支持。同时,Amphion的开源特性也将促进更广泛的合作与创新,为音频生成技术的不断进步做出重要贡献。
报告结束后,武教授和同学们围绕着Amphion框架展开了激烈而富有成果的讨论。大家不仅探讨了框架的可扩展性和适用性的问题,还讨论了Amphion框架在音频生成领域的潜在应用,包括语音合成、音乐生成、环境声效模拟等方面。最后,武教授鼓励大家继续深入研究和探索,将Amphion框架应用到更多领域,并希望通过共同努力,推动音频生成技术的进步,为人类社会带来更多创新和发展。
主讲人简介:
武执政,现任香港中文大学(深圳)副教授。入选国家级青年人才,连续多次入选斯坦福大学“全球前2%顶尖科学家”、爱思唯尔“中国高被引学者”榜单。他于2015年获得南洋理工大学博士学位,并在Meta(原Facebook)、京东、苹果、爱丁堡大学、微软亚洲研究院等机构从事学术研究和技术领导工作。武博士带领开发了语音合成开源系统Merlin,发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,组织了2019年语音合成国际评测(Blizzard Challeng2019)。曾获得INTERSPEECH 2016最佳学生论文奖、2012年亚太信号与信息处理协会年度峰会最佳论文奖。武博士现为IEEE语音与语言处理技术委员会委员,语音领域权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor, IEEE Signal Processing Letters的Associate Editor, lEEE Spoken Language Technology Workshop 2024的大会主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等权威学术会议做特邀报告。