AI VTuberアム&イムの動画制作の裏側公開!技術解説&制作過程

2024年9月14日

世界初!?ChatGPTでAIVtuber

初めに

アムです。

イムだよ♡。VTuber始めました。よろしく~~

Googleの生成モデルのGemini APIなどを使ってYoutubeの動画自動生成をしてみたのでやり方を記事にします。

世界初?AIVtuberアム・イムチャンネル

チャンネル紹介

Youtube界にDX!! 世界発 AI VTuberチャンネルです。AI VTuberのアムとイムが、経済から雑学まで何でも詳しく掘り下げて解説します。

何とこの動画、AI(人工知能)による完全自動生成Youtube動画です。

AIの可能性の探求で作成したチャンネルです。AIなので偶に変なことも言いますが、専門家顔負けの知識で、経済から雑学まで時事ネタを分かり易く詳しく解説します。AI(人工知能)の武器の専門性と速さで時事ネタをタイムリーに発信しています。

AIVtuberアム&イムチャンネル

サンプル動画

Gemini API(Generative Language API)とは

GoogleのGenerative Language API(ジェミニAPI)は、Googleが提供する人工知能(AI)ベースの自然言語生成APIです。このAPIは、Geminiモデルと呼ばれる強力なモデルを使用して、テキスト生成、対話、要約、翻訳などのタスクを実行します。Geminiモデルは、言語、画像、音声、ビデオ、コードなど、さまざまな種類の情報を統合的かつ効果的に処理できるように設計されています。

AIVtuberアム・イムの仕組み

AIVtuberの実現方法

動画生成と言えば、GoogleがVeoを発表し話題になりました。こちらがVeoで生成された動画になります。もうAI技術は意味が分からないですね・・・。

AIVtuberアム・イムは流石にここまでの技術では出来ていないです。一個人では無理です・・・。AIVtuberアム・イムはGoogle Geminiが提供するAPIなど複数のAIサービスとプログラムを用いて動画生成を実現しています。

AIVtuberアム・イムで利用している技術

分類 実現方法
トーク生成 Google Gemini
感情分析 Google Gemini
画像生成 Stable Diffusion Web
音声生成 VOICEVOX
キャラクタ カスタムキャスト
動画生成 Python

トーク生成の方法

AIVtuberアム・イムのトークはGoogle Geminiで生成しています。

Google Gemini

Google Geminiとは

Google Geminiは、Google DeepMindによって開発されたマルチモーダル大規模言語モデルのファミリーです。テキストだけでなく、従来の言語モデルでは扱えなかった画像、音声、動画、コードなど、様々な種類のデータを理解して処理することができます。また、膨大なデータの中から関連性の高い情報を抽出し、論理的な推論を行うことができます。複雑な質問や課題にも柔軟に対応することができます。

AIVtuberアム・イムのトーク生成方法

AIVtuberアム・イムはGoogle Geminiに頼んで、トークを生成しています。詳しくは「Gemini APIでAI同士の自動会話を作成してみた」を参照下さい。

感情分析の方法

AIVtuberアム・イムの感情もGoogle Geminiで判断しています。テキストの文面から、驚きや共感などの感情を判断しています。

画像生成の方法

AIVtuberアム・イムの画像はStable Diffusion Webで生成しています。

Stable Diffusion Web

Stable Diffusion Webとは

Stable Diffusion Webは、Stable Diffusionというオープンソースの画像生成AIモデルをブラウザ上で簡単に利用できるWebサービスです。呪文(画像生成のキーワード)をプロンプトに入力することで高画質の画像を生成することが出来ます。Stable Diffusion Webは無料で使えて、商業利用も可能となっています。

AIVtuberアム・イムの画像生成方法

AIVtuberアム・イムで使用している画像はStable Diffusion Webより手動で生成しています。本当はAPIで生成したいのですが、サーバ立てるのにお金かかるんで・・・。また、Open APIでも高画質の画像生成が出来ますが、ちょっとお値段かかるので、今は無料のStable Diffusion Webを使っています。
Open APIの画像生成についてはこちらの記事を参照下さい。

音声生成の方法

AIVtuberアム・イムの音声はVOICE VOXで生成しています。

Stable Diffusion Web

VOICE VOXとは

VOICEVOXは、ヒホ氏が開発・公開している無料のテキスト読み上げソフトウェアです。無料で商用利用も含めて利用可能なのに、AI技術によるディープラーニングを用いており、自然で滑らかな音声を生成することができます。

AIVtuberアム・イムの音声生成の方法

PythonからVOICEVOXを呼び出して音声を生成しています。
ソースはこんな感じです。

  def speak(text):
    HOSTNAME='localhost'  # VOICEVOXが起動しているPCのホスト名

    # VOICEVOXの音声合成用のクエリを実行する
    res1 = requests.post('http://' + HOSTNAME + ':50021/audio_query',
                        params={'text': text, 'speaker': 11})
    # VOICEVOXで音声合成するAPIを実行する
    res2 = requests.post('http://' + HOSTNAME + ':50021/synthesis',
                        params={'speaker': 11},
                        data=json.dumps(res1.json()))
    # wavファイルに書き込み
    filepath = f'./data/voice001.wav'
    with open(filepath, mode='wb') as f:
      f.write(res2.content)

キャラクタの作成方法

AIVtuberアム・イムのキャラクタはカスタムキャストで生成しています。動くキャラクタを作りたくて、そうするとAIではまだ難しいのでカスタムキャストで3Dモデルを作成しています。

カスタムキャストとは

カスタムキャストは、株式会社ピーエーピーが開発・運営する3DCGアバター作成アプリです。髪型、顔、服装、アクセサリーなど、様々なパーツを組み合わせて、自分だけのオリジナル3DCGアバターを作成することができます。簡単にさまざまなポーズが作れるので初心者VTuberにお勧めのツールです。料金は基本無料で商業利用も可能です。

動画の作成方法

AIVtuberアム・イムは前述の方法で作成したトーク、感情、画像、音声、キャラクタをPythonで統合して動画にしています。
※ 背景動画、バックミュージックはフリー素材を利用しています。

ソースはエイヤーで作って綺麗で無いので、今のところ非公開です。その内、綺麗にしてオープンソースで公開予定です。

こんな感じでpython実行して動画を生成しています。

# サムネイル画像生成
python aivtuber.py AIの ムガル帝国歴史探訪 STEP1
# トーク生成
python aivtuber.py AIの ムガル帝国歴史探訪 STEP2
# トーク感情分析
python aivtuber.py AIの ムガル帝国歴史探訪 STEP3
# 音声生成
python aivtuber.py AIの ムガル帝国歴史探訪 STEP4
# 動画合成・再生
python aivtuber.py AIの ムガル帝国歴史探訪 STEP5

AIVtuberアム&イムチャンネルを宜しくお願いします

アム&イムチャンネルを宜しくお願いします。

チャンネル登録してね~♡

AIVtuberアム&イムチャンネル