はじめに
こんにちは、島結しまゆです。
趣味でVtuberをしているものだ。
これまで独学…というか動画の説明見たり解説記事を見たりしてOBSのマイク設定をしていましたが、なんかこもっている感じがしていました。
EQも自分の声に合わせるとどう設定したらいいかわからないし、ボイチェンも自分の声に対してどう設定したらいいか迷子のままでした。
で、本業と趣味でCursorを使っていたので、ふと「なんとかすればAIに適切な設定値を提案してもらえるんじゃね?」と思い今回やってみました。
前提
AIの回答が全てではありません。
同じ方法でやってもあなたにとってベストかはわかりません。
コードが出力された時はあなたの責任において実行してください、責任は取れません。
環境
Cursor | ver1.2.4 Proプラン課金中 |
モデル | gpt-4.1(この辺はお好みで) |
M1 Mac mini | macOS 15.3.1 |
Logicool G Blue Yeti ゲーミングマイク | USB直接接続 マイクアームあり |
OBS | v31.0.3 |
Graillon 3 | ボイチェン(VST) |
TDR Nova | イコライザー(VST) |
中のおっさん | アラフォー男性 |
課題
私が感じていた課題は以下の通りです
- ボイチェンの設定がしっくりこない
- ピッチ・フォルマント合っていない気がする
- ガビガビだったりゲロゲロしている瞬間がたびたびある
- 音声が全体的にこもっている気がする
- EQをはじめ、フィルターの設定が何もかもわからない
Vtuberを初めて二年以上経ちますが、未だにこのあたりがスッキリ決まりませんでした。
こもり解消、フィルター設定のためにやったこと
- 投稿動画から音声ファイルを抽出
- Cursorに提案されて出力された「音声を分析し、「こもり具合」「高域の抜け」「ノイズレベル」「音量」などを数値化できるPythonスクリプト」を、Google Colabで実行
- 実行結果のスクショを撮ってCursorに添付し、出力結果からわかることを言ってもらう
- OBSの音声フィルターの設定を全部スクショして添付し、「今の設定はこうだけど、どう設定したらいい?」と質問
- 返ってきた数値を設定してみて、その設定でいつも通りある程度長い時間収録
- 収録した動画の声を聞いて、気になったところがあれば1から5までを繰り返して、気になったところをメインにどうしたらいいか質問してまたOBSに反映して収録して声を聞く
- 最終的な微調整は自分の耳でする
ボイチェン設定のためにやったこと
- 素の声を収録して音声ファイルを抽出
- Cursorに提案されて出力された「ピッチ、フォルマント分析ができるPythonスクリプト」を、Google Colabで実行
- 実行結果のスクショを撮ってCursorに添付し、自分の今の声がどういうものか分析してもらう
- その上で、理想の声にしたい場合はどう設定すればいいか質問する
- 最終的な微調整は自分の耳でする
コツ
- AIは「聞けない」
音声ファイルを投げただけでは音声の分析はできません(モデルによってはできるかもしれないけど、その場合は具体的な指示が必要だと思う)
なので、動画から音声ファイルを抽出→Pythonスクリプトで分析した結果をAIに読ませる必要がありました。
環境を用意するのが面倒だったのでGoogle Colabで実行しました。Pythonスクリプトもファイル1個なので十分でしたね。
ただ、Google Colabで実行すると結果をCursorが読み込むことができないので、今回は出力をスクショして「これが分析結果だよ」って渡してあげました。画像に写っているものを読み込むのはさすがAI、得意ですね。
2. 段階を踏む
AIに「丸投げ」してもどうになりません。最近は「いい感じってなんですか?」くらいは言ってきます。
そのため、「OBSを使っている」「今の設定はこう(スクショ)」「実際の音声ファイル」と、まずは前提を伝えます。
その上で「こもって聞こえる(課題の提示)」「こもらないような音声フィルターの設定はどうしたらいいか(目標の提示)」と聞いていきます。
AIのいいところは「一般論」に加えて、分析結果をもとにして自分の声に合わせてアレンジしてくれるところですね。ここが素人には厳しく、ずっとマイク設定が決まりませんでした。
それでも、人間に耳で聞くと「良くはなってるけど、良くなった分ここが気になり始めたな」ってなるので、同じように手順を踏んで気になるところを潰していきます。相手はAIなので何回やり直しても大丈夫です。
3. よく分からないことは都度聞く
AIは特に恣意性がなければ「ggrks」とか言わないので、分からないことは都度聞きましょう。
私も「このスクリプトはGoogle Colabで実行することができますか?」とか、そもそも最初に「マイク設定して欲しいんだけど、何の情報があれば提案できる?」とか聞いています。「Graillon 3のWet/Dryの設定って%表記じゃないんだけどどう設定したらいいの?(画像有)」とかも聞きました。
マイクフィルターの設定項目とかもこの際片っ端から聞いてもいいかもしれません。もちろん誤りの可能性もあるのですが、一般的で普遍(に近いもの)はそれほど誤回答もないので、まぁまぁ信用してもよいと思います。
4. 最後は自分の耳で
最後は自分に耳で聞いて、それでOKならOKです。それ以上の微調整は多分まだAIでは難しそうですね。
少なくとも素人設定でマイナスになっているものを0にすることはまではこれで叶いそうで、ここからさらに精度を高めていくのは、まだまだ人間の経験と勘が必要です。
まぁ、個人Vとしてはここまででもだいぶ改善したかなと思うのでヨシとします。
実際のチャット内容
長すぎるので別記事にアップしておきます。参考にしてください。あくまで「参考」にしてください。
Google Driveにマークダウンファイルを入れました。多分みれるけど編集はできない…よね?
効果の程は?
ど、どうかな・・・少しは良くなったかな・・・?
※動画前半は声自体の調子が悪いですが後半は割と効果を実感できる気がする
この動画はゲームの音はありません。
限定公開にしています。
個人的な感想
うーんよくなったようなあんまり変わらないような?
と思いましたがなんとなく感じるもわっと感はなくなったかなと思います。
高い声になった時にキンキンしなくなり、ノイズが入りにくくなりました。
その結果、全体的に聞きやすくなった気がします。
プロフェッショナルの方が聞いてどうなのかもどこかで聞きたいですね。もっと適した設定方法があるかもしれないので。
ただ、ボイチェンの方があまり変わらず。ここの調整が大変でした。
なんとなくガビガビ?というかガサガサ?ゲロゲロ?しているけどAIにこのニュアンスが伝わらず。
AIは具体的な数字があればなんか納得いかないところを共有できるので、なんとか原因を探したいところ。
ここからは自分の喋り方次第?
自分で声を繰り返し聞いた感じ、いい感じで聞こえる部分とゲロゲロガサガサ聞こえる部分があり、もしかすると喋っている間の声の高さが安定していないのかもしれないと思いました。
そういうこと分析できる?って聞くとパッとコードを出してくれたのでそれを通してみると、数値的にもピッチが大幅に不安定なことがわかりました。
そうなると、あとはピッチが安定して喋れるように人間が頑張るしかありません。
ただ、これで一旦はマイク設定については大丈夫そうだなということで安心して配信や動画収録ができます。
今まであんまり多く喋ることもなかったので、喋る練習として今後は配信もやっていきたいと思います。