DAW悪戦苦闘記

DAWやMIDIを通じてちまちまとDTMを楽しむ記録+MIDI検定1級到達記

オーディオ・サンプルで学習した自動作曲ツール

MIDIのようなシンボリック・データを学習インプットとして自動作曲する研究は割とありふれているのだが、いっそのことオーディオそれ自体をモデルに食わせて学習させるといったアプローチもありではないか、と思っていたら、先ごろOpenAIからそのものずばりな研究成果が "Jukebox" の名の下に公開されていた。これはインプット、アウトプット双方ともにオーディオとするモデルである。

openai.com

venturebeat.com

想像に難くはないが、生のオーディオ・サンプルは情報量が膨大なために、autoencoderの工夫によっていかに効率よく圧縮するかが学習促進・楽曲生成のキーとなっているようである。それでも1分尺の新たなオーディオを生成するのに9時間掛かるというから、まだまだ実用にはほど遠い。データ圧縮しているせいで生成アウトプットにノイズが多いのも問題である。

公開されている生成サンプルをいくつか聴いてみたところ、これはまるでサンプリングとかマッシュアップで合成した楽曲のようだ、という印象が強かった。つまり、特にこのツールに頼るメリットはあまりないのかも(今のところは)、という身もふたもない結論だった。