Adobe VoCo がすごげ

Adobe MAX 2016のイベントで”Photoshop for Voice”の売り文句で紹介されている Adobe VoCo をBobby氏が取り上げています。

Adobe VoCo – With Great Power Comes Responsibility

Adobe VoCo 概要

全編英語なのでわかりにくいかもしれませんが、「俺はベッドから飛び起きて犬とカミさんにキスをした。そう、その順番で。」という文章を(わざと間違えて)「俺はベッドから飛び起きてカミさんともう1人のカミさんにキスをした。」、(わざと間違えて)「俺はジョーダンと犬にキスをした。」、しまいには「俺はジョーダンに3度キスをした。」とテキスト編集するだけでつなげている、つまりその人が言ってもいない発言を作り出すことが可能になっているんですね。
イントネーションは不自然だが、間合いは自然。
イントネーションや(連声というとちょっと違うが)単語のつなぎもキレイに制御できるようになるとパーフェクトでしょう。

ADRという言葉がBobby氏の記事に登場しているが、これは映像中のセリフをアフレコ(ダビング)して仕上げる作業をいいます。

cf.

リテイクのコストを大幅に下げ得る

“Photoshop for Voice”とはよく言ったもので、アクターのスケジュールや撮影スケジュールに左右されることなく、録り直しのために借りるスタジオの料金も抑えた上で、言語の抑揚を気にせずセリフを切り貼りできるようになったり、訛ってしまったナレーションの補正がもしもラクになるとしたら、生産性の面で歓迎せざるを得ません。

まだ開発途中の段階であり、発言の捏造を防ぐウォーターマークの技術を今後導入するなど、クリアしなければいけない課題は多そうです。

植木ロイドやCeVIOのハルオロイド・ミナミなど、音声合成(歌唱合成)技術を使用して故人の声を再構成するものも国内だと話題になりましたが、VoCoが将来的な現場での実用性を掘り当てたものと考えると、イノベーション以外の何物でもないんじゃないでしょうか。

楽曲のようにMIXされた音源に技術が応用できるかは不明です。
ラップ中にFワードが入っているものは放送や製品に使えず、その曲を外すか使用箇所を変更するなどしなければなりませんよね。
ゲームなんかだと、マズい言葉や差別的な表現等がないか発売前にチェックを受けるのだけど、以前僕が関わったものにおいても、使用音源の歌詞中のワードに問題があって急きょ再編集が必要になったことがありました。
そうした再編集がラクになるなら大歓迎です。