ディープフェイク音声の判定に用いられる流体力学

Deepfake audio has a tell – researchers use fluid dynamics to spot artificial imposter voices

と、雑にタイトルつけました。
AIを使用したアート作品が入賞して騒ぎになったり、被災地の光景をAIで生成して復興計画の邪魔になったり、急成長に対応しきれない有様があらわになっています。「これは嘘だよー」と識者が判定しない限り伝播に歯止めをかけられんというか、識者の仕事がそればっかりになったら彼らの本来の仕事が侵食されたぶんを補填してもらわなきゃやってらんないだろうというか、識者ですら判定できなくなるのも時間の問題だろうというか。

ディープフェイク音声や映像による詐欺もぼちぼちリスクが現実化してきている昨今。
これまで生身の人間でも何らかの「不自然さ」に気付くことで判定できていたわけです。ふだん音声をすごい集中力で聞き取っている人にとって、あり得ない箇所に発音ノイズが入るとか、抑揚が人間っぽくないとか、ずいぶん息継ぎが少ないなとか、ため息だけ妙に解像度が低いとか、違和感を覚えるとしたら、そうした辺りで不自然さに気付きます。超雑にいえば第六感ってやつです。超雑に言えばです。
生成技術のほうも加速度ついてますし、加えて文脈を踏まえてのリアルタイムの応答や、何らかのソーシャルハックも加わると、犯罪が成し遂げられてしまう可能性がぐんぐん向上してしまうわけですよね。

上の記事によると、生身の人間の喋りにおける音響特性の変化に比べれば、ディープフェイク音声は、いかに上手な継ぎ接ぎであっても、その響きから割り出される声道の形状は発達が著しく乏しいそう。
発音変化までは学習できても共鳴（経時変化）までは学習できてないってことなのかなと。この共鳴は口腔内であったり室内であったりその人の身体であったりマイクそのものであったり、これらの規則性は生理的には感じ取れると思うのですけど、感覚的にはけっこう難しそう。何にせよ、この辺りは専門家の方のほうが詳しいはずなんで、憶測はここまでにしますが。
かろうじて人間でも気付けそうですが、おそらく肝心の真偽判定は結局コンピュータに頼ることになりそう。
つまり、”AIかどうかをAIが判定する”いたちごっこが、既にスタートしているんでしょう。

関連