Texas Instruments Speak&Music [Free] と加工

TI Speak And Music audio samples : Texas Instruments : Free Download, Borrow, and Streaming : Internet Archive

Texas Instruments “Speak&Music”のトーン、ボイスサンプルをキャプチャしたものがInternet Archiveにアップされており、フリーで手に入れられるとのこと。

TI Speak & Music – sampled from synthesizers

同社のSpeak&Spellからのサンプルは既にSoniccouture（配布終了）をはじめとしてあちこちからリリースされていて、VSTインストゥルメントでもいくつかリリースされています。ググれば出てくるので情報は割愛。

■目次

Wavetableにしてみる
S&Sっぽい音声にするには

Wavetableにしてみる

そのまま使うもよし、この手のボイスはデータ的に比較的シンプルなので、Wavetable代わりに使用するのもまたよし。波形を手に入れたらとりあえずSerumに突っ込んでみるのは、もうお決まりってもんです。
ピッチが揺れてるため美しいWavetableにするのは難しいんで、FFT512くらいで突っ込むとそこそこ面白いものになります。
もっともセリフをWavetableに変換して使うんなら、VitalのTTWT機能使ったほうが手間かからないんですけども。

Matt Tytel “Vital” ざっくりガイド

S&Sっぽい音声にするには

ここから余談。いや、むしろこちらがメイン。

AI音声なり棒読みちゃん的なものなり、リアリティを上げる今の傾向と真逆に劣化させる加工になっちゃいますが、Speak&Spellっぽい音声、これはこれで味があるんで日本語でもこの声質でやってみたいってニーズはあるかもしれない。
ひとまず、MacだとターミナルからSayコマンドで書き出してもいい（アクセシビリティ＞読み上げコンテンツ、で声をインストールしとくこと）のですが、

cd Desktop/
say "すみません、聞き取れませんでした。" -o nisesiri.aiff

この機会に使ってみたいSiriの音声は、使えるのにターミナルだと使えない残念な仕組みなので、テキストエディタに「すみません、聞き取れませんでした。」と書いてoption+escで読み上げさせたものをblackhole 2ch経由でQuicktimeにオーディオ収録させるなど。

と、先に、さっき触れたVitalのTTWTで日本語しゃべらせたものも載せておきます。

何かで聞き覚えがある感じ

プラグインエフェクトでS&Sっぽい声にするなら、いま手元で使えるものは3つあって（他にも方法はあると思うけどとりあえず）、Sonic ChargeのBitSpeek、iZotopeのVocalSynth2、AudioEaseのSpeakerphone。下の例では、Siri女性に続けてSiri男性の声を、同じ設定のまま続けてます。

Sonic Charge "BitSpeek" — Sonic Charge “BitSpeek”

ありそうな感じ

iZotope "Vocal Synth 2" — iZotope “Vocal Synth 2”

近い雰囲気にはなる

Audio Ease "Speakerphone" — Audio Ease “Speakerphone”

粗さは面白い

以前、Talkboxについて書いたのと似た顔ぶれになりましたが、専用っぽい出で立ちのBitSpeekが妥当って感じ。Aquestalkっぽい雰囲気ありますね。
もっとも、この分野の再現クオリティを上げたところで特に驚きが倍増するものでもないとは思います。
ほかの声だとどんな感じになるんだろうかってことで、VOICEVOXの四国めたん（セクシー）を、同じ設定で加工してみるとこんな感じ。

四国めたん+Sonic Charge “BitSpeek”

四国めたん+iZotope “Vocal Synth 2”

四国めたん+Audio Ease “Speakerphone”

voicevox.hiroshiba.jp

VOICEVOX | 無料で使える中品質なテキスト読み上げソフトウェア

無料で使える中品質なテキスト読み上げソフトウェア

なるほど以外の感想がない。
これら、入力音声のピッチを拾って反映してくれるのでボコーダー的な手間は不要ですが、BitSpeekはそのピッチ変化を拡大縮小することが可能だったり、MIDIノートから拾うこと”も”可能と、見た目が超絶シンプルなのに機能面の幅が備わっててGood（ちなみにSpeakerphoneはうちだと何故かサイドチェーン入力を受け取らなくなってしまいました）。したがって、喋りじゃなくて歌に対しても手放し状態でエフェクトをかけられて楽しい。
ほとんど出番のないであろう（実際、うちでも年1回使うかどうか）エフェクトですが、ちょっと遊んでみたいときにはいいかも。