本研究では、少量の音声データから効率的に音声クローンを生成する方法を調査しました。
音声クローニングは、人の声を録音し機械学習によって再現する技術で、ボーカロイドや近年の音声生成AIなどで広く利用されています(図1)。

しかし、従来は多くの録音や複雑な工程が必要で、専門外の人には扱いが難しいとされてきました。
そこで本研究では、音声合成技術の一つであるTacotron2を用い、最小限の音声データでどの程度の品質が得られるかを検証しました。
具体的には、20文の音声を4名から収集して学習を用い、生成した音声を学習の進み具合に応じて取り出し、独自の基準で1~5点に数値化して評価しました。その結果、学習を5000回行ったときに平均3.36点と最も高品質な音声クローンが得られ、学習回数が増えるほど品質が向上する傾向が確認できました(表1)。
今後は録音文の工夫やシステムの自動化により、より短時間で高精度な音声クローン生成を実現することを目指します。

表1 学習回数(エポック数)ごとの音声クローンの平均点