【AI式HALC@LOID】レイニーブーツ【NNSVS-WORLD v4(自己回帰モデル)+ParallelWaveGAN】

"【AI式HALC@LOID】レイニーブーツ【NNSVS-WORLD v4(自己回帰モデル)+ParallelWaveGAN】" の動画はこちら

この動画をTwitterで共有！

外部プレーヤー埋め込みタグ

"【AI式HALC@LOID】レイニーブーツ【NNSVS-WORLD v4(自己回帰モデル)+ParallelWaveGAN】"のニコニコ動画詳細情報

原曲: 稲葉曇『レイニーブーツ』Vo. 歌愛ユキ sm38927801参考にしたust: ばにらあいす氏の ust https://lit.link/Vanilla9831学習モデル生成, 歌声合成, ミキシング: Heimatlosイラスト: かづき(@kAduk0)----NNSVSの最近の音響モデルに関して得られた知見・2021年頃のAI式HALC@LOIDで採用していたRMDNと比較して大量の学習データが必要. NNSVS-WORLD v4(自己回帰モデル)で1h, NNSVS-WORLD v5(拡散モデル)で2h以上・学習データ量が足りないと音程の他に音量(低次のmgcが関係)も不安定になり音痴に聴こえる・学習データ量が足りない場合は pitch-shift data augmentation (以下PSDAと省略)という手法で学習データを拡張することで音程や音量が安定化させることができる(場合がある) (参考: https://github.com/nnsvs/nnsvs/blob/master/utils/pitch_augmentation.py )・PSDA で学習データを拡張しても元の学習データ量が30分程度だと NNSVS-WORLD v5で良好な結果を得ることは難しい・有声/無声の誤推定が目立つ場合は vuv_model から mgc に対する依存を外した方が良い・新しく採用されたニューラルボコーダである HN-uSFGAN, SiFiGAN はどちらも素晴しい出力が得られるが, 学習データにリバーブ等のノイズが乗っている場合は ParallelWaveGAN(Hn-sinc-NSF)の方がノイズに対して堅牢である(気がする)
動画ID：sm42337928
再生時間：3:13
再生回数：再生回数: 回
コメント数：5
マイリスト数：8
最新のコメント：.
タグ：アイドルマスター,春香,NNSVS