本网站正在建设中(~ ̄▽ ̄)~

  • 你好~!欢迎来到中文歌声合成个人收集站-VCPedia.cn!
  • 若发现页面信息有误投稿至本站,请联系管理员。

DiffSinger

出自中文歌聲合成個人收集站
跳至導覽 跳至搜尋
Icon-info.png
VCPedia歡迎您參與完善本條目☆Kira~
歡迎正在閱讀這個條目的您協助編輯本條目。編輯前請閱讀Wiki入門條目編輯指引,並查找相關資料。VCPedia祝您在本站度過愉快的時光。
File:DiffSinger圖標.jpg
基本資料
軟體名 DiffSinger
開發者 MoonInTheRiver
作業系統 WindowsLinuxMacOS
語言 漢語普通話
軟體類型 歌聲合成
維護者 OpenVPI
程式語言 Python

DiffSinger是一款開源AI歌聲合成軟體,理論來源於浙江大學論文《DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism》[1]

簡介

使用Python語言編寫,基於Diffusion算法,支持WindowsLinux以及MacOS系統

目前主要由OpenVPI團隊Fork且進行後續開發

可使用onnx作為模型運行框架,使用NSF-HiFiGan聲碼器,是開源、免費且本地合成的中文AI歌聲合成引擎。

DiffSinger官方倉庫內包含中文普通話二段式詞典,可用於製作中文普通話聲庫。可以通過自定義詞典以支持更多語言。

截止2024年03月31日,OpenUtau正式版已支持DiffSinger,並支持以下功能:

  • 漢字輸入(目前只適配普通話拼音)
  • 調整音素長度
  • 多聲線/多音色混合
  • 參數 PITD:音高偏差
  • 參數 DYN:響度
  • 參數 GENC:性別
  • 參數 VELC:輔音速度
  • 參數 BREC:呼吸
  • 參數 ENE:能量(目前已不再建議支持)
  • 參數 TENC:力度
  • 參數 VOIC:發聲

歷史

2022年08月10日,發布首個自動音高demo《小手拉大手》。

寬屏模式顯示視頻

2022年12月04日,發布首個調參且使用社區聲碼器demo《我多想說再見啊》。

2022年12月09日,保姆級自製教程發布。

2022年12月24日,首個社區自製音源發布demo《逍遙仙》。

2023年01月08日,由氧氣編譯的OpenUtau兼容了DiffSinger聲庫,也帶來了DiffSinger聲庫的可視化實時調參功能。 目前可用功能如下:

  • 漢字輸入(目前只適配普通話拼音)
  • 調整音素長度
  • 多聲線/多音色混合
  • 參數 PITD:音高偏差
  • 參數 DYN:響度
  • 參數 GENC:性別
  • 參數 VELC:輔音速度

2023年01月26日,發布首個多聲線/多音色融合demo《一半一半》。

2023年02月17日,發布首個Utau聲庫轉制AI聲庫demo《飲中八仙Spirits》。

2023年03月09日,發布首個社區自製中日雙語混合模型聲庫demo。

2023年04月25日,發布首個社區自製多語種(漢語普通話,日語,英語,韓語,漢語廣東話)混合模型聲庫demo。

2023年05月14日,發布首個自動音高demo《不謂俠》。教程版本進行交接。

2023年05月15日,發布同樣基於擴散(diffusion)模型且標註方案為完全自研的唱法預測模型。

2023年05月28日,更新唱法模型(自動音高、自動音素等)所需數據集的標註示例和標註轉換/製作指南。

2023年07月16日,更新2.0.0版本,更新包含全新唱法模型與參數、半精度/多卡訓練支持、諸多優化改進與錯誤修復。

2023年08月26日,更新2.1.0版本,此次更新主要內容包括模型微調、網絡參數凍結、自動音高表現力因子控制、DS文件訓練、RMVPE音高提取器等。

2023年11月22日,更新2.2.0版本,此次更新主要內容包括聲學模型淺擴散、唱法模型旋律編碼器和滑音標記支持等。

2023年11月23日,社區B站帳號上線。

2023年12月08日,更新2.2.1版本,支持聲碼器微調並加入唱法模型訓練建議。

2024年03月11日,更新2.3.0版本,支持tension和voicing參數。

2024年04月17日,正式支持Rectified Flow,效果和速度均獲得較大提升。

公開試聽或公開使用聲庫(不完全統計)

見下方「DiffSinger」大家族模板。


相關連結

  1. DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism https://arxiv.org/abs/2105.02446