昨年夏に自動作曲ツールの調査研究をやった一環で、ニューラルネットを用いた音楽生成モデルの代表例であるMagentaプロジェクトなどの存在を知ることができた。
Magentaは自分で実際に動かしてみたりもしたが、その後自主制作上はまったく活用することもなく、AI自動作曲の研究動向などからは遠ざかっていたところ、網羅的なサーベイ記事を最近たまたま発見したので、備忘録がてらここに紹介しようと思う。昨夏の課題学習みたいなものを振り返りつつ、個人的な気づきと雑感を箇条書きにしておく。
- 画像と違って音楽は利用可能な学習データが圧倒的に少ない状況が機械学習上非常に不利である。特にMIDIデータは自分で書き起こしたりする必要もあったりで、ハードルが高過ぎる。そう言う意味では、上記記事でも指摘しているように、オーディオ・データのままで学習させるアプローチの方が将来性があるように思う*1。
- オーディオ・データを機械学習のインプットとして用いる方法論をある程度理解するためには、デジタル信号処理(DSP)の基本を習得する必要はあろう。これについてはまた後日触れたい。
- とても大切なそもそも論と目的について。上記記事中で "そもそもなんのためにAIで音楽を作るのかという視点です。「バッハのような」あるいは「ビートルズのような」音楽を生成することが目的でよいのでしょうか" という視点は重要だ。単なるモノマネでは少なくとも実用価値はなきに等しい(オリジナルの本物を聴けばよいわけだから)。この点では昨夏に試した WolframTones は非常に単純かつ珍奇ではあるけれど、生成される楽曲はとても斬新で新規性がある。
- これもそもそも論。コード進行に見られるように、基本的に音楽は心地よいとされる組み合わせに関して(100%厳密ではないものの)ルールが確立しているので、ルールベースのアプローチで相当程度実用価値を出せると考えられる。なので、機械学習をどこに対して何の目的で適用するかは今後シビアに問われるとは思う*2。ユーザとしては、AI/機械学習のバズワードに惑わされない素養はあった方がよい。
- 上記記事によれば、リズムに焦点を当てた研究はかなり少ないようだが、GarageBand(または Logic Pro X)のドラマー機能を重宝している身としては、実用上これで十分ではないかと思ってしまうのだがどうだろう(おそらくルールベースだと想像するが)。
*1:代表例がGoogleのWaveNet。その片鱗を覗かせていて面白いと思った記事は「機械学習でギターアンプをモデリングする」。