本网站正在建设中(~ ̄▽ ̄)~

  • 你好~!欢迎来到中文歌声合成个人收集站-VCPedia.cn!
  • 若发现页面信息有误投稿至本站,请联系管理员。

DiffSinger

VCPedia.cn ——关于中文歌声合成的一切。
跳到导航 跳到搜索
Icon-info.png
VCPedia欢迎您参与完善本条目☆Kira~
欢迎正在阅读这个条目的您协助编辑本条目。编辑前请阅读Wiki入门条目编辑指引,并查找相关资料。VCPedia祝您在本站度过愉快的时光。
File:DiffSinger图标.jpg
基本资料
软件名 DiffSinger
开发者 MoonInTheRiver
操作系统 WindowsLinuxMacOS
语言 汉语普通话
软件类型 歌声合成
维护者 OpenVPI
编程语言 Python

DiffSinger是一款开源AI歌声合成软件,理论来源于浙江大学论文《DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism》[1]

简介

使用Python语言编写,基于Diffusion算法,支持WindowsLinux以及MacOS系统

目前主要由OpenVPI团队Fork且进行后续开发

可使用onnx作为模型运行框架,使用NSF-HiFiGan声码器,是开源、免费且本地合成的中文AI歌声合成引擎。

DiffSinger官方仓库内包含中文普通话二段式词典,可用于制作中文普通话声库。可以通过自定义词典以支持更多语言。

截止2024年03月31日,OpenUtau正式版已支持DiffSinger,并支持以下功能:

  • 汉字输入(目前只适配普通话拼音)
  • 调整音素长度
  • 多声线/多音色混合
  • 参数 PITD:音高偏差
  • 参数 DYN:响度
  • 参数 GENC:性别
  • 参数 VELC:辅音速度
  • 参数 BREC:呼吸
  • 参数 ENE:能量(目前已不再建议支持)
  • 参数 TENC:力度
  • 参数 VOIC:发声

历史

2022年08月10日,发布首个自动音高demo《小手拉大手》。

宽屏模式显示视频

2022年12月04日,发布首个调参且使用社区声码器demo《我多想说再见啊》。

2022年12月09日,保姆级自制教程发布。

2022年12月24日,首个社区自制音源发布demo《逍遥仙》。

2023年01月08日,由氧气编译的OpenUtau兼容了DiffSinger声库,也带来了DiffSinger声库的可视化实时调参功能。 目前可用功能如下:

  • 汉字输入(目前只适配普通话拼音)
  • 调整音素长度
  • 多声线/多音色混合
  • 参数 PITD:音高偏差
  • 参数 DYN:响度
  • 参数 GENC:性别
  • 参数 VELC:辅音速度

2023年01月26日,发布首个多声线/多音色融合demo《一半一半》。

2023年02月17日,发布首个Utau声库转制AI声库demo《饮中八仙Spirits》。

2023年03月09日,发布首个社区自制中日双语混合模型声库demo。

2023年04月25日,发布首个社区自制多语种(汉语普通话,日语,英语,韩语,汉语广东话)混合模型声库demo。

2023年05月14日,发布首个自动音高demo《不谓侠》。教程版本进行交接。

2023年05月15日,发布同样基于扩散(diffusion)模型且标注方案为完全自研的唱法预测模型。

2023年05月28日,更新唱法模型(自动音高、自动音素等)所需数据集的标注示例和标注转换/制作指南。

2023年07月16日,更新2.0.0版本,更新包含全新唱法模型与参数、半精度/多卡训练支持、诸多优化改进与错误修复。

2023年08月26日,更新2.1.0版本,此次更新主要内容包括模型微调、网络参数冻结、自动音高表现力因子控制、DS文件训练、RMVPE音高提取器等。

2023年11月22日,更新2.2.0版本,此次更新主要内容包括声学模型浅扩散、唱法模型旋律编码器和滑音标记支持等。

2023年11月23日,社区B站账号上线。

2023年12月08日,更新2.2.1版本,支持声码器微调并加入唱法模型训练建议。

2024年03月11日,更新2.3.0版本,支持tension和voicing参数。

2024年04月17日,正式支持Rectified Flow,效果和速度均获得较大提升。

公开试听或公开使用声库(不完全统计)

见下方“DiffSinger”大家族模板。


相关链接

  1. DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism https://arxiv.org/abs/2105.02446