Accentize "dxRevive"

Accentize “dxRevive”

今朝早くにお知らせメールが届いていて、知った時点ではまだページが非公開だったんですが、お昼すぎに公開となりました。AIを使用した音声処理を半ば専門とするAccentizeの新作、dxReviveおよびdxRevive Pro。
Pro版は無印版と比べてマルチバンドで帯域ごとに設定レベルを替えたり、2種類のアルゴリズムが選択できたり、プリセットが備わったりといった違い。ただしマルチバンドでの使用時、各バンドをダブルクリックやモディファイアキー+クリックで初期値に戻す機能はついていないもよう。

機械学習を用いたステム分離やレストレーション系のソフトはこの数年あちこちから出ているので、正直それらと変わるようなものもないだろうと思ってたのですが、製品ページ上のデモでも確認できるようにかなり実用的な仕上がりになっている印象です。
歴史的音声は音声分離にかけると場合によっちゃもっと聞こえにくくなると当然思ってしまうのですが、NASAの通信音声を復元した例を聞いてもわかるように、元では欠けていた帯域まで補われ、嘘くさくないレベルにまで達しています。
品質は今のところダントツと言っていいかなと。

機能としてはこう。

Its capabilities span:

Noise removal

Reverb elimination

Restoration of absent frequencies

Elimination of Codec Artifacts (e.g., from Skype or Zoom recordings)

Recovery of clipped audio

Seamless replacement of missing samples to address audio dropouts

Application of spectral corrections

https://www.accentize.com/products/dxReviveManual.pdf

最新版にしてないからわからんけど、RXで幾つものツールを使って行うようなレストレーションが一度に出来ると考えればいいかな。

うちでも4つくらいのケースで試してみました。著作権上の理由で、処理結果だろうと音源はここに載せません。
90年前のスピーチ（英語）、これはもともと音声の途切れてしまっている箇所を除いてすべてクリアに再現されました。
続いて古いレコードの曲中の歌部分。これもまあまあクリアに抽出されました。
続いて日本語での音声はどうか。90年近く前の通信傍受音源についてはかなり怪しかった。元音声を聞いて日本人に聞き取れそうな言葉が、音声の品質が悪すぎるのか、もしくはAI用の学習材料に偏りがあるのか（多言語から学習とされているので、可能性は低い）、dxReviveだと英語っぽく響く箇所が多々見受けられました。フォルマントも日本人の音声より閉じた感じに復元されるため、母音が聞き取りづらい。
そして最後、蝋管に記録された樺太アイヌの音声。これも流石にほとんど無理でした。だろうとは思ってましたけども。
チェックに相応しい題材をいろいろ漁ったりしたのですが、今どきは既に処理済みのものが配布されているなど、わりと探し当てるのがしんどかったですね。

で、ハッキリとは言えませんが、上記実験中、人間の声が入っていない箇所の音楽が人間の声のように「あーうーあー」と再合成されることが何度かあり、その聞こえ方がLPCのようでもあって、検出できないより無理やりでも音声として復元したほうがいいだろうってとこにスレッショルドを保持していると解釈しました。この方針には自分も賛成。

ja.wikipedia.org

線形予測符号 - Wikipedia

ともあれ、クオリティが充分ではあるものの、ここまでのものが必要になる業務は比較的限られるとは思います。ま、逆に言うと、限られた用途ではあるけれどクオリティが文句なしなので、早くこのクオリティが標準となる時代が来てほしいなと、そんな思いです。

実は、この2,3日前にAudioSourceREってとこから、楽曲からドラムだけを消すDrumlessってのがリリースされていて、先行製品であるDemix Proが（操作性はさておき）悪くないクオリティだったからと期待していたけれど予想を大きく上回ることはない出来だったのです。

drumless real time drum extraction plugin for daws

いや、アコースティックだろうがエレクトリックだろうが見事にドラムは消えましたよ。すごいもんです。ボーカルの摩擦/破擦音との区別もまあまあできてました。だけど、今どきのシンセプラック音やスラップハウス風のベース音もドラムとして検出されますし、逆再生ギミックを加えたドラム音については検出から外れました。じゃあ、いつ使うかと言われると難しいですよね。
そして、YouTubeでの製品動画にも珍しく厳しいコメント（「都合のいい題材を選んで動画を作っているようだけど」的な）がついていました。海外デベロッパーの製品の動画には賛辞が並ぶことが多いのにね。

Accentize “dxRevive”

関連記事