YouTube が、AI を活用して自動吹き替えされた動画の口の動きを音声に合わせる「自動リップシンク」機能の導入を計画していることが明らかになりました。
英語・フランス語・ドイツ語・ポルトガル語・スペイン語の 5 言語で試験的に提供が開始される見込みです。
AI が映像をピクセル単位で補正し、自然な口の動きを再現
この機能は、YouTube の自動吹き替えチームを率いる Buddhika Kottahachchi 氏が Digital Trends に語ったもので、AI が話者の唇や歯、表情などを 3D レベルで解析し、ピクセル単位で映像を補正することで、吹き替え音声と一致した自然な口の動きを生成する仕組みです。
YouTube のテキスト生成 AI「Veo3」などで培われた映像生成技術を応用しており、従来よりもリアルで違和感のない吹き替え表現を実現するとしています。
現時点では 1080p のみ対応、今後 20 言語以上に拡大予定
現段階では 4K 動画には非対応で、最大解像度は 1080p に限定されています。言語は英語・フランス語・ドイツ語・ポルトガル語・スペイン語の 5 言語に限られますが、将来的には YouTube の自動吹き替え機能が対応する 20 以上の言語に拡大する計画です。
また、この機能は当初、一部のクリエイターを対象としたパイロットテストとして提供される見込みで、利用には追加料金が発生する可能性もあると報じられています。料金の負担が視聴者かクリエイターかは未定です。
AI リップシンクの悪用防止策も
自動生成された映像の悪用を防ぐため、YouTube は動画に「自動生成された吹き替え映像である」旨の表示を追加し、さらに Google の SynthID 技術のような「不可視ウォーターマーク」による識別を導入する予定です。
同様の取り組みは Meta も進めており、Instagram Reels で AI 吹き替えとリップシンクを試験運用中です。現在は英語・ヒンディー語・ポルトガル語・スペイン語の 4 言語に対応しています。