DiffSinger

VCPedia欢迎您参与完善本条目☆Kira~
欢迎正在阅读这个条目的您协助编辑本条目。编辑前请阅读Wiki入门或条目编辑指引，并查找相关资料。VCPedia祝您在本站度过愉快的时光。

DiffSinger是一款开源AI歌声合成软件，理论来源于浙江大学论文《DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism》^[1]。

简介

使用Python语言编写，基于Diffusion算法，支持Windows、Linux以及MacOS系统

目前主要由OpenVPI团队Fork且进行后续开发

可使用onnx作为模型运行框架，使用NSF-HiFiGan声码器，是开源、免费且本地合成的中文AI歌声合成引擎。

DiffSinger官方仓库内包含中文普通话二段式词典，可用于制作中文普通话声库。可以通过自定义词典以支持更多语言。

截止2024年03月31日，OpenUtau正式版已支持DiffSinger，并支持以下功能：

2022年08月10日，发布首个自动音高demo《小手拉大手》。

宽屏模式显示视频

2022年12月04日，发布首个调参且使用社区声码器demo《我多想说再见啊》。

2022年12月09日，保姆级自制教程发布。

2022年12月24日，首个社区自制音源发布demo《逍遥仙》。

2023年01月08日，由氧气编译的OpenUtau兼容了DiffSinger声库，也带来了DiffSinger声库的可视化实时调参功能。目前可用功能如下：

2023年01月26日，发布首个多声线/多音色融合demo《一半一半》。

2023年02月17日，发布首个Utau声库转制AI声库demo《饮中八仙Spirits》。

2023年03月09日，发布首个社区自制中日双语混合模型声库demo。

2023年04月25日，发布首个社区自制多语种（汉语普通话，日语，英语，韩语，汉语广东话）混合模型声库demo。

2023年05月14日，发布首个自动音高demo《不谓侠》。教程版本进行交接。

2023年05月15日，发布同样基于扩散（diffusion）模型且标注方案为完全自研的唱法预测模型。

2023年05月28日，更新唱法模型（自动音高、自动音素等）所需数据集的标注示例和标注转换/制作指南。

2023年07月16日，更新2.0.0版本，更新包含全新唱法模型与参数、半精度/多卡训练支持、诸多优化改进与错误修复。

2023年08月26日，更新2.1.0版本，此次更新主要内容包括模型微调、网络参数冻结、自动音高表现力因子控制、DS文件训练、RMVPE音高提取器等。

2023年11月22日，更新2.2.0版本，此次更新主要内容包括声学模型浅扩散、唱法模型旋律编码器和滑音标记支持等。

2023年11月23日，社区B站账号上线。

2023年12月08日，更新2.2.1版本，支持声码器微调并加入唱法模型训练建议。

2024年03月11日，更新2.3.0版本，支持tension和voicing参数。

2024年04月17日，正式支持Rectified Flow，效果和速度均获得较大提升。

见下方“DiffSinger”大家族模板。