CoeFontCLOUDの録音をしたのでレポするよ

こんにちは。
CoeFontCLOUDというサービスが正式リリースとなったと聞き、早速録音してみました。
ブラウザ上でテキスト読み上げができるサービスですね。
ごちゃごちゃいうよりまずは聴いてください。

Voiced by https://CoeFont.CLOUD
こちらは、欲音ルコ♀-通常-(ハイエンド版)を使用しています。

台詞は微妙に違いますが生声だとこんな感じになります。

だいぶ近いのでは……?と思います。

これはハイエンドなので700文録音し、1500円支払っています。
ちなみにミドルレンジは400文1000円、ローエンドはなんとたったの100文500円でできます!
このうち、ローエンド4種とハイエンド1種を録音しましたので軽くレポします。

録音レポと所感

まず最初に、ローエンドの通常βを録音しました。
公式の推奨はコンデンサーマイクですがダイナミックマイクでも録れます。(私はコンデンサーマイクを使用しています)
100文読むのにかかった時間はきっちり計っていませんが30分ほどかかりました。
公式サイトには15分と記載がありますが、これは聞き返さず、録り直しも最低限にしてようやく15分という感じかなあと。
人によっては1時間以上かかるなんてこともあるので時間には余裕を持ってください。
最初なのでごくごく普通に、キャラクターだけ意識しつつ余計なことは何も考えずに読み上げました。
ローエンドに関しては文章の難易度はそれほど高くないです。声優統計コーパスを読んだときに比べたら楽勝でした。
中断や録り直しは完了しない限り出来ます。ただ、録り直しは1文ずつ戻るしかないので最初にきっちり演技プランなどを固めておくのが大事かなと。
録音後、生成に時間がかかります。6~8時間と書かれていますがローエンドだと4時間程度。
生成結果に関しては正直ハイエンドいらないのでは……?と思った程度には満足です。

続いて、ローエンドの怒りβです。
感情を込めて演技したらどうなるだろう?という実験も兼ねて、怒った、ふてぶてしい感じの声で録音しました。ただでさえ低い声が演技でさらに低めになってしまっているので、最初に男声か女声か選ぶところで一瞬迷いましたが女声にしています。
こちらに関しても生成結果は大きな破綻などもなく、満足です。

さて、ではもっと派手に演技したらどうなる?ということでローエンドの悲しみβです。
悲しそう、というよりもはや泣き声くらいのイメージで録音してみました。
結果はというと、リンクから試し聞きするとわかると思いますが、ところどころ破綻が見られます。
実験結果としてサンプルになるだろうという思いと、泣き声と捉えればまあ使えなくもないかなあということで、そのまま公開しています。
しかしここまでの演技になるとハイエンドはちょっと大変かなあと思いました。
敗因としてはあくまで推測ですが、ピッチの上下が激しかったことと語尾の抜きがウィスパー気味になっていたことではないかと思います。
上手く生成できていた怒りβは声色こそ大袈裟に演技しているものの、ピッチに関しては比較的平坦気味だったと思うので……。

さあ、ここでようやく700文のハイエンドに挑戦です。通常のハイエンド版です。
ひとまずは普通に、ということで先程のローエンド通常βと同じく何も考えずにキャラクターだけ意識。
かかる時間は公式には120分だそうです。
これはちょっと時間を計りました。休憩5分×3回を含み2時間15分でした。
……が、これに関しては慣れとほぼほぼ一発録りで聞き返すのも最低限、どんどん次の文へ、という録り方なのであまり当てにしないほうがいいと思います。
最低でも4時間はかかると思っておいたほうが吉。人によってはそのさらに倍以上かかるなんてことも結構あるようですのでくれぐれも時間には余裕を持って。
なぜなら100文突破後、急に文章の難易度が上がるんですね。「ツェルニーチェは~」みたいなカタカナ難読は当たり前みたいな雰囲気になってきます。……これは適当に考えた言葉ですが。
中断はできるものの、水分などを用意してから録ったほうがいいかなと思います。
また、一気に録るとそれなりに疲れるので掠れたりして最初と最後で声が変わってしまう、なんてこともあるかもしれませんのでそこは気をつけてください。
生成時間は14時間ほどかかりました。
生成結果は先程載せた通り、満足です。

最後に、もう一つ実験を兼ねてローエンドの喜びβを録りました。
少しだけ抑揚を大袈裟気味にしてみています。
結果としては若干破綻。比較的スタンダードな声の出し方をしたつもりではいましたが、やはりピッチの動きが大きかったのではないかと。

さて、というわけで録音と結果に関する所感でした。
少しまとめますね。

まとめ

ローエンド

ローエンドの長所:
・安い(500円)
・個人差はあるが30分程度からできる
・100文と少なく、文章の難易度も低め
・ごくごく普通の抑揚くらいならそこそこのものができる
・最初から最後まで一定の声質を保ちやすい
ローエンドの短所:
・生成結果のクオリティは下がる
・演技過剰の場合、生成結果が一部破綻する可能性が高い
・やはりハイエンドのほうが使ってもらいやすいかも

向いている方はサクッと録りたい・お試ししたい・とりあえず興味がある・長時間声質を保てないなどの方、などでしょうか。

UTAUで例えると単独音を録るイメージかと思います。

ハイエンド

ハイエンドの長所:
・生成結果のクオリティは高い
・(おそらく)多少演技過剰でもまだ破綻少なめで済むかも
・ハイエンド枠がつくので目立つし使ってもらいやすいかも
ハイエンドの短所:
・ちょっと高い(1500円)
・700文と多く、文章の難易度も高め
・個人差はあるが最低3~4時間程度はかかる
・長時間一定の声質を保てない方には向かない

向いている方はとにかくクオリティにこだわり、長時間の録音に耐えられる方あたりかなと。

UTAUで例えると連続音を録るようなイメージ。

ミドルレンジ

今回は録っていないのでさっくりと。
ハイエンドとローエンドの中間と考えればいいかと。
バランス的にはこれはこれでおすすめかと思います。

向いている方は長時間一定の声質を保つのは難しいがそれなりのクオリティは欲しい方あたりではないでしょうか。

UTAUで例えるとCVVCを録るようなイメージですね。

苦手っぽい話し方

あくまで推測ですが

・ピッチの動きが派手
・語尾の抜きが息成分多め

あたりは苦手そうだなと感じました。あとは滑舌良くハキハキと話していれば大丈夫かなあと思います。

また、ホワイトノイズに関しては最初に10秒無音時間があるのでおそらくある程度除去しているようです。
ただ、他の方のを聴いた感じでは「ブーン」というノイズはあまり除去できていないかも。

以上です。
なにかのお役に立てるかはわかりませんが、こんな感じだったよ、というレポでした。

コメント

タイトルとURLをコピーしました