CoeFontの録音をしたのでレポするよ

【2022/02/08 追記】感情CoeFont収録の所感を追記いたしました。

こんにちは。
CoeFontというサービスが正式リリースとなったと聞き、早速録音してみました。
ブラウザ上でテキスト読み上げができるサービスですね。
ごちゃごちゃいうよりまずは聴いてください。

Voiced by https://CoeFont.CLOUD
こちらは、欲音ルコ♀-通常-（ハイエンド版）を使用しています。

台詞は微妙に違いますが生声だとこんな感じになります。

だいぶ近いのでは……？と思います。

これはハイエンドなので700文録音し、1500円支払っています。
ちなみにミドルレンジは400文1000円、ローエンドはなんとたったの100文500円でできます！
このうち、ローエンド4種とハイエンド1種を録音しましたので軽くレポします。

録音レポと所感
まとめ
【2022/02/08 追記】感情CoeFont・新機能などについて
1. 感情CoeFont
2. 新機能など

録音レポと所感

まず最初に、ローエンドの通常βを録音しました。
公式の推奨はコンデンサーマイクですがダイナミックマイクでも録れます。（私はコンデンサーマイクを使用しています）
100文読むのにかかった時間はきっちり計っていませんが30分ほどかかりました。
公式サイトには15分と記載がありますが、これは聞き返さず、録り直しも最低限にしてようやく15分という感じかなあと。
人によっては1時間以上かかるなんてこともあるので時間には余裕を持ってください。
最初なのでごくごく普通に、キャラクターだけ意識しつつ余計なことは何も考えずに読み上げました。
ローエンドに関しては文章の難易度はそれほど高くないです。声優統計コーパスを読んだときに比べたら楽勝でした。
中断や録り直しは完了しない限り出来ます。ただ、録り直しは1文ずつ戻るしかないので最初にきっちり演技プランなどを固めておくのが大事かなと。
録音後、生成に時間がかかります。6～8時間と書かれていますがローエンドだと4時間程度。
生成結果に関しては正直ハイエンドいらないのでは……？と思った程度には満足です。

続いて、ローエンドの怒りβです。
感情を込めて演技したらどうなるだろう？という実験も兼ねて、怒った、ふてぶてしい感じの声で録音しました。ただでさえ低い声が演技でさらに低めになってしまっているので、最初に男声か女声か選ぶところで一瞬迷いましたが女声にしています。
こちらに関しても生成結果は大きな破綻などもなく、満足です。

さて、ではもっと派手に演技したらどうなる？ということでローエンドの悲しみβです。
悲しそう、というよりもはや泣き声くらいのイメージで録音してみました。
結果はというと、リンクから試し聞きするとわかると思いますが、ところどころ破綻が見られます。
実験結果としてサンプルになるだろうという思いと、泣き声と捉えればまあ使えなくもないかなあということで、そのまま公開しています。
しかしここまでの演技になるとハイエンドはちょっと大変かなあと思いました。
敗因としてはあくまで推測ですが、ピッチの上下が激しかったことと語尾の抜きがウィスパー気味になっていたことではないかと思います。
上手く生成できていた怒りβは声色こそ大袈裟に演技しているものの、ピッチに関しては比較的平坦気味だったと思うので……。

さあ、ここでようやく700文のハイエンドに挑戦です。通常のハイエンド版です。
ひとまずは普通に、ということで先程のローエンド通常βと同じく何も考えずにキャラクターだけ意識。
かかる時間は公式には120分だそうです。
これはちょっと時間を計りました。休憩5分×3回を含み2時間15分でした。
……が、これに関しては慣れとほぼほぼ一発録りで聞き返すのも最低限、どんどん次の文へ、という録り方なのであまり当てにしないほうがいいと思います。
最低でも4時間はかかると思っておいたほうが吉。人によってはそのさらに倍以上かかるなんてことも結構あるようですのでくれぐれも時間には余裕を持って。
なぜなら100文突破後、急に文章の難易度が上がるんですね。「ツェルニーチェは～」みたいなカタカナ難読は当たり前みたいな雰囲気になってきます。……これは適当に考えた言葉ですが。
中断はできるものの、水分などを用意してから録ったほうがいいかなと思います。
また、一気に録るとそれなりに疲れるので掠れたりして最初と最後で声が変わってしまう、なんてこともあるかもしれませんのでそこは気をつけてください。
生成時間は14時間ほどかかりました。
生成結果は先程載せた通り、満足です。

最後に、もう一つ実験を兼ねてローエンドの喜びβを録りました。
少しだけ抑揚を大袈裟気味にしてみています。
結果としては若干破綻。比較的スタンダードな声の出し方をしたつもりではいましたが、やはりピッチの動きが大きかったのではないかと。

さて、というわけで録音と結果に関する所感でした。
少しまとめますね。

まとめ

ローエンド

ローエンドの長所：
・安い（500円）
・個人差はあるが30分程度からできる
・100文と少なく、文章の難易度も低め
・ごくごく普通の抑揚くらいならそこそこのものができる
・最初から最後まで一定の声質を保ちやすい
ローエンドの短所：
・生成結果のクオリティは下がる
・演技過剰の場合、生成結果が一部破綻する可能性が高い
・やはりハイエンドのほうが使ってもらいやすいかも

向いている方はサクッと録りたい・お試ししたい・とりあえず興味がある・長時間声質を保てないなどの方、などでしょうか。

UTAUで例えると単独音を録るイメージかと思います。

ハイエンド

ハイエンドの長所：
・生成結果のクオリティは高い
・（おそらく）多少演技過剰でもまだ破綻少なめで済むかも
・ハイエンド枠がつくので目立つし使ってもらいやすいかも
ハイエンドの短所：
・ちょっと高い（1500円）
・700文と多く、文章の難易度も高め
・個人差はあるが最低3～4時間程度はかかる
・長時間一定の声質を保てない方には向かない

向いている方はとにかくクオリティにこだわり、長時間の録音に耐えられる方あたりかなと。

UTAUで例えると連続音を録るようなイメージ。

ミドルレンジ

今回は録っていないのでさっくりと。
ハイエンドとローエンドの中間と考えればいいかと。
バランス的にはこれはこれでおすすめかと思います。

向いている方は長時間一定の声質を保つのは難しいがそれなりのクオリティは欲しい方あたりではないでしょうか。

UTAUで例えるとCVVCを録るようなイメージですね。

苦手っぽい話し方

あくまで推測ですが

・ピッチの動きが派手
・語尾の抜きが息成分多め

あたりは苦手そうだなと感じました。あとは滑舌良くハキハキと話していれば大丈夫かなあと思います。語尾息はなんとなくそうかな……？程度なのでもしかしたら行けるのかもですが……。

また、ホワイトノイズに関しては最初に10秒無音時間があるのでおそらくある程度除去しているようです。
ただ、他の方のを聴いた感じでは「ブーン」というノイズはあまり除去できていないかも。

以上です。
なにかのお役に立てるかはわかりませんが、こんな感じだったよ、というレポでした。

【2022/02/08 追記】感情CoeFont・新機能などについて

CoeFontFes2022お疲れさまでした。
感情CoeFontが追加され、それに伴い各種機能などもアップデートされたようなのでそのあたりについて追記しておきます。

感情CoeFont

CoeFont収録時に喜怒哀楽の感情を込められるようになりました。
Fes中は作成が無料でしたが、現在は1つに付き1000円で作成できるようです。
喜びなら「○○だなんて、なんて嬉しいんだろう！」のような文章、怒りなら「○○だって言ってたじゃないか！」のような文章のように、喜怒哀楽の表情が出しやすい文章が用意されています。
それを感情を込めて300文読むだけです。
もちろん、喜怒哀楽に限らず様々な表情をつけることも可能です！

いくつか録ってみた所感としては、

抑揚をつけすぎたり、記載のアクセントから外れすぎると少々破綻しやすくなる
語頭1音と語尾1音に表情をもたせ、あとはあっさりめに表情付けすると比較的うまくいくかも？
録音ボタンを押してすぐ喋らず、半拍以上待ってから喋りだしたほうが音声劣化を防げるかも？
喜と楽の差がちょっとわかりづらい
楽の文章が比較的普通で雰囲気がつかみにくいかも？
演技プランをしっかり固めてから挑んだほうが良い
通常CoeFontで無理矢理感情を込めて読むよりは台本が感情移入しやすい

こんな感じでしょうか。

音声劣化については、時折ノイズ除去をかけすぎたようなホワンホワンとした音になってしまう場合がありました。
色々試した結果、録音ボタン押下後に一呼吸置いてから話し出すと劣化しにくいかな、と感じました。

また、抑揚大きめに録って破綻してしまったCoeFontについては、使う際に高度なオプションから抑揚値の設定をONにし、抑揚値を上げると少し破綻しにくい印象を受けました。

楽の文章については、比較的普通の文章っぽく感じたので、歌ってみたり笑い声にしてみたりなど表情付けの応用がしやすいかなあとは思いました。（まあFes中でなければ通常CoeFontで録ればよいのですが……）

演技プランについては通常収録時にも書きましたが、途中でブレないよう最初にきっちり固めておきましょう。

あと、これは注意点なのですが、Fes終了後はFes参加CoeFontはすべて10pt設定になってしまっているようです。（一度5ptに設定したものであっても）
使用ポイント数を変えたい場合は直しておきましょう。

今回収録した感情CoeFontの見本です。（ニコニコ動画）

Voiced by https://CoeFont.CLOUD

新機能など

生成の待ち時間に録音する

以前はCoeFont生成中は次のCoeFontの録音が出来ませんでしたが、待ち時間に次の収録ができるようになりました。
休日などに一気に録音したい場合には便利です。

CoeFontをまとめる

同じ話者や同じキャラクターのCoeFontをまとめることができるようになりました。
ひとつのCoeFontの詳細ページを開くことですべてのサンプルが聞けるようになり、使う際も一括で追加できるようになります。

まとめるとこのようになります。（欲音ルコ♀通常ハイエンドのCoeFontページに飛びます）
一覧表示が非常に便利なので、1つのキャラクターに複数のCoeFontを作成した場合はぜひまとめてみましょう！

タグ付け

これは以前からありましたが、この記事の掲載以降にできるようになったものなので一応。
男性女性や音声合成キャラクター、立ち絵あり、Webサイトありなど、タグを5つまで選ぶことができます。（感情CoeFontの場合は感情タグで1つ埋まってしまうようです）