DiffSinger

VCPedia歡迎您參與完善本條目☆Kira~
歡迎正在閱讀這個條目的您協助編輯本條目。編輯前請閱讀Wiki入門或條目編輯指引，並查找相關資料。VCPedia祝您在本站度過愉快的時光。


基本資料
軟件名	DiffSinger
開發者	MoonInTheRiver
作業系統	Windows、Linux、MacOS
語言	漢語普通話
軟件類型	歌聲合成
維護者	OpenVPI
編程語言	Python

DiffSinger是一款開源AI歌聲合成軟件，理論來源於浙江大學論文《DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism》^[1]。

簡介

使用Python語言編寫，基於Diffusion算法，支持Windows、Linux以及MacOS系統

目前主要由OpenVPI團隊Fork且進行後續開發

可使用onnx作為模型運行框架，使用NSF-HiFiGan聲碼器，是開源、免費且本地合成的中文AI歌聲合成引擎。

DiffSinger官方倉庫內包含中文普通話二段式詞典，可用於製作中文普通話聲庫。可以通過自定義詞典以支持更多語言。

截止2024年03月31日，OpenUtau正式版已支持DiffSinger，並支持以下功能：

漢字輸入（目前只適配普通話拼音）
調整音素長度
多聲線/多音色混合
參數 PITD：音高偏差
參數 DYN：響度
參數 GENC：性別
參數 VELC：輔音速度
參數 BREC：呼吸
參數 ENE：能量（目前已不再建議支持）
參數 TENC：力度
參數 VOIC：發聲

歷史

2022年08月10日，發佈首個自動音高demo《小手拉大手》。

BV1DB4y1z7e5【视频信息加载中……】寬屏模式顯示視頻

正在加载中，若长时间空白则说明是网络问题……

2022年12月04日，發佈首個調參且使用社區聲碼器demo《我多想說再見啊》。

2022年12月09日，保姆級自製教程發佈。

2022年12月24日，首個社區自製音源發佈demo《逍遙仙》。

2023年01月08日，由氧氣編譯的OpenUtau兼容了DiffSinger聲庫，也帶來了DiffSinger聲庫的可視化實時調參功能。目前可用功能如下：

漢字輸入（目前只適配普通話拼音）
調整音素長度
多聲線/多音色混合
參數 PITD：音高偏差
參數 DYN：響度
參數 GENC：性別
參數 VELC：輔音速度

2023年01月26日，發佈首個多聲線/多音色融合demo《一半一半》。

2023年02月17日，發佈首個Utau聲庫轉制AI聲庫demo《飲中八仙Spirits》。

2023年03月09日，發佈首個社區自製中日雙語混合模型聲庫demo。

2023年04月25日，發佈首個社區自製多語種（漢語普通話，日語，英語，韓語，漢語廣東話）混合模型聲庫demo。

2023年05月14日，發佈首個自動音高demo《不謂俠》。教程版本進行交接。

2023年05月15日，發佈同樣基於擴散（diffusion）模型且標註方案為完全自研的唱法預測模型。

2023年05月28日，更新唱法模型（自動音高、自動音素等）所需數據集的標註示例和標註轉換/製作指南。

2023年07月16日，更新2.0.0版本，更新包含全新唱法模型與參數、半精度/多卡訓練支持、諸多優化改進與錯誤修復。

2023年08月26日，更新2.1.0版本，此次更新主要內容包括模型微調、網絡參數凍結、自動音高表現力因子控制、DS文件訓練、RMVPE音高提取器等。

2023年11月22日，更新2.2.0版本，此次更新主要內容包括聲學模型淺擴散、唱法模型旋律編碼器和滑音標記支持等。

2023年11月23日，社區B站賬號上線。

2023年12月08日，更新2.2.1版本，支持聲碼器微調並加入唱法模型訓練建議。

2024年03月11日，更新2.3.0版本，支持tension和voicing參數。

2024年04月17日，正式支持Rectified Flow，效果和速度均獲得較大提升。

公開試聽或公開使用聲庫（不完全統計）

見下方「DiffSinger」大家族模板。

DiffSinger

目次

簡介

歷史

公開試聽或公開使用聲庫（不完全統計）

相關連結

導覽菜單

目录

DiffSinger

簡介

歷史

公開試聽或公開使用聲庫（不完全統計）

相關連結

導覽菜單

搜尋

目录