ボーカルのtalkbox化

前置き

talkbox っぽいボーカルをプラグインで出来るのかどうかという話題があります。結論としてはほぼ無理。
ボコーダーと似ていますが、最終の出音を機械が処理するのがボコーダーで、最終の出音を人間の口が処理するのがトークボックス。「最終の」がネックですね。
①口腔の共鳴をリアルに再現することができるのが前提(なおかつ口唇や歯を閉じる系の子音では口が完全に閉じない音になってくれるとBest)で、②口腔を変化させる母音子音を完全に検出させられる仕組みが必要となります。一言で言えば、随意に制御できるか、って点に尽きます。

この動画も面白いです。

候補

AudioNerdz “Delay Lama

トークボックスもどきとして使えないこともないDelay Lamaですが、SpectrasonicsのOmnisphere等に備わっているもの以外シンセと言えます。母音のコントロールはLFOにほぼ縛られ、子音に非対応。
同様の仕組みを持ったシンセプリセットは多々ありますが、歌や声を入力して反応させるためにはシンセ単体の機能じゃ無理。

Audio Ease “Roger”

母音間を自由に渡り歩け、男女、子どもの3つのバリエーションが備わっていますが、こちらも子音に非対応で、歌や声の入力を受け付けません。レゾナンスが強く、口腔っぽさがやや希薄。

Audio Thing “The Orb

最近の製品で比較的自由度も高い。歌や声の入力はたぶん受け付けませんが、トークボックスらしさはそこそこあります。

MDA “Talkbox

20年近く前の古いソフトなのに一番優秀。いつしかサイドチェーンに対応。
配布サイトを見るとわかる通り、Vocoderと別に配布されており、相当なプライドを持って開発したと思われます。単音で鳴らしたものを入力するのがベスト。
大きな特徴としては入力音量(か特定帯域の音量)が出力音量に反映されるところ。

iZotope “Vocalsynth

サイドチェーンで音声の入力を受け付け、トークボックスっぽくするという触れ込み。
クオリティは、期待値には及ばなかったかぁ、という印象。

Waves “OVOX

2020年に登場したもので、Talkbox代わりとして巷では評判がいい。
デモ版で試すとなかなかで、生の人声だといっそう効果がでかい印象(生の人間は出音をフィードバックして、意識的にせよ無意識にせよ、効果が大きくなるよう自身の発声を補正するため)。パラメーターが多く、ちょうどいい効果が得られるまでチャレンジできる面で有用と思います。

Pink Trombone

かなりの変化球。人間の発音をただ真似るだけのWeb Audio(たぶん)が、仕組みとしてはTalkboxに近似。ただし、入力を持たないので、音感や発音を自分でナイスに動かしたり、もし人間の音声を分析して、このソフトの操作に対して展開、なおかつMIDI入力を音程とデュレーションに展開できるなら面白いことるかもしれない。

Emvoice “Thomas”

実は本稿の改訂前に「音声合成のライブラリーとして持てばいいのに」的なことを書いていたら、2021年にEmvoiceが実現してくれました。自声を加工するものではないので本記事の主旨に合致しませんが、リアリティはさすが。自由かどうかはEmvoice自体の操作感次第。
あと個人的にはPlogueのAlter Egoにも期待。

ESX-1

こちらはハードウェアで、チューブを口に加えなくても喉に振動を与えるだけでシンセとして発音できるもの。何らかの形で仕組みを工夫すればもしかしたら…と一瞬思ったけど、シンセをソースにしたいのでなくて元の喋りをソースにしないと意味ないので、選外。

試聴

TalkboxとVocalsynthの音を比較してみる。

打ち込んだ内容
打ち込んだ内容

ほかにアクエストのVocalizerというのもあるが、いま制作環境上チェックできないのでパス。

ワウ代わりにするか歌うか

大事なポイント「音声の入力を受け付けて反映するか」は、この2点を左右する

  • オートメーションを書き込む手間
  • 母音以外の再現度

Delay Lama, Roger, The Orbの3つは音声の入力を受け付けず、このため好きな内容を好きな調子で歌わせることができないけれども、(Delay Lamaを除いて)ワウっぽい表現まではある程度コントロールできる。このオートメーションを書き込むには地味な作業になるけど、それなりの効果を期待できる
ちなみにIPAのVowelチャートを彷彿とさせるX-Yパッドを伴った仕組みであれば、より自然な母音の渡りを再現することも可能かと一瞬思ったけど、それだと演奏中に喉の奥を開閉して共鳴の深さをコントロールするような、Vowelチャートじゃカバーしていない音楽的表現まではできない。

母音以外の再現度とは歌詞を表現できるかってことであり、これも要するに音声入力で拾えたらラクだけど実際のとこどういう処理になんの?と。
馬鹿正直に考えるなら、実際に人が歌っているものに対して口の形や動きを類推させて共鳴の帯域を作り出してってプロセスを考えなきゃいけない。けっこう煩わしい処理と思われる。
iZotope Vocalsynthは実直に頑張ってみましたと。一方、mda Talkboxは最も古い上フリーなのに、非常にうまいこと処理を省略して軽快に処理しちゃってるように思う。実にあっぱれ。
結果、この2者はイ段とウ段の狭い母音になったときに違いが大きく、高い周波数がノイズっぽく聞こえるのがVocalsynthで、シンセ音がバイパス気味に聞こえるのがmda Talkbox。
どちらがモノホンっぽいかは上に挙げた例でおわかりいただけたかと。