LALAL.AI 、また新たなボーカル抜き出しツール

また新しい分割ツールができたようです。 LALAL.AI 。

ひとまずはボーカルとオケとに分割でき、Spleeter由来のものと比べて分離精度はさらに高いように感じました(Spleeterも充分すごい)。最初のチェックは上のスクショの通り…あ、見切れてるか…New AlgorhythmでNormal Levelで行いました。
抽出可能な時間範囲は試用版だと1分までで、Lite($10)かProfessional($30;現在$20)で登録すればもっと自由度が上がります。

bpbの人が書いている(Extract Vocals For FREE Using LALAL.AI’s AI-Based Technology – Bedroom Producers Blog)ように、リバーブがかかったものは少し苦手っぽい。
ほか新旧および圧縮/非圧縮のファイルで幾つか試してみたところ、日本語の曲は摩擦音と振りものパーカッションとが多少分離しにくい傾向がありそう。言語ごとの音韻に基づく差や、ミックス手法の差(これ自体もある程度言語の音韻差が影響すると考えられますが)は多かれ少なかれ結果を左右すると思います。
全体的に、抜き出した声よりオケのほうが圧倒的にクッキリした音像ですね。
圧縮/非圧縮に関しては、そりゃ非圧縮フォーマットのほうが精密な分析がなされると思われますが、分析後はスペクトルによる解析ならではの質感になるので、出力結果においてはそこまで大きな違いが出ないようですね。はじめ、それは再生時もしくはDL後のファイルがMP3形式になるからかなと思ったんですが、プロパティ見たら320kbpsのデータなんで、エンコードでそこまで劣化するとは考えにくい。

分離に関してはSpleeterで限界だろうと思っていたけれど、もう一歩進んだものが出てきた。ならばここからまたさらに一歩進んだものはいずれ出てくるでしょう。が、音楽自体はアキレスと亀よろしく、その進歩を待ってくれるわけじゃあない。
なんというか、どこをゴールにするのかなと部外者の自分は思います。

言うまでもないですが、原曲の作者や歌唱者がこうした手法を用いた分離を嫌がる場合もあると思いますんで、むやみな濫用を避けることをお勧めします(もしくは原曲に携わる人と連絡取るのがスジでしょう)。
あと、公衆送信が目的でないにしても他人の曲をアップロードするのがどうかって論点もあります。フェアユースの考え方が日本だとありませんし。

【API】