AIxiv专栏是据浙据集机器之心发布学术、技术内容的大G带栏目。过去数年,数上线适配机器之心AIxiv专栏接收报道了2000多篇内容,歌声覆盖全球各大高校与企业的任务顶级实验室,有效促进了学术交流与传播。乐谱如果您有优秀的作曲真实工作想要分享,欢迎投稿或者联系报道。缺数投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的据浙据集作者主要来自于浙江大学。第一作者是大G带浙江大学计算机学院的博士生张彧,导师为赵洲教授,数上线适配主要研究方向是歌声音乐合成,音频生成和自然语言处理,任务并在 NeurIPS、AAAI、ACL、EMNLP 等会议发表相关论文。共一作者是来自浙江大学计算机学院的本科生潘昶皓。
传统的歌声任务,如歌声合成,大多是在利用输入的歌词和乐谱生成高质量的歌声。随着深度学习的发展,人们希望实现可控和能个性化定制的歌声生成。
因此,技巧可控的歌声合成、技巧识别、歌声风格迁移以及语音到歌声的转换等任务应运而生。这些任务逐步发展并在短视频配音和专业音乐创作等现实场景得到应用。
然而,由于缺乏高质量和多任务的开源歌声数据集,这些新兴的歌声任务的发展受到了很大阻碍。
为此,来自浙江大学的研究团队提出了一个全球化、多技巧的大型开源高质量歌声数据集 GTSinger,带有技巧对照组、真实乐谱、配对朗读数据,涵盖了目前所有歌声任务的需求,并在多个歌声任务上提供基准测试。