Meta は、短いテキストの説明やプロンプトから「高品質」で「リアルな」オーディオと音楽を生成するフレームワークであるAudioCraftを発表しました。

AudioCraftフレームワークは、この分野での以前の研究(例えば、 Riffusion 、 Dance Diffusion 、OpenAIの Jukebox ) と比較して、オーディオの生成モデルの使用を簡素化するように設計されたと説明しています。

AudioCraft には、MusicGen、AudioGen、EnCodec という 3 つの生成 AI モデルが含まれています。

Metaは、MusicGenの事前トレーニング済みのすぐに使えるバージョンが「メタが所有し、特別にライセンスを取得した音楽」、具体的には同社独自の20,000時間のオーディオ(テキスト説明とメタデータを含む400,000の録音)を使用してトレーニングされたことを明らかにしています。

AudioGen は、ほとんどの最新の画像ジェネレーターと同様、拡散ベースのモデルです (OpenAI のDALL-E 2、Google の Imagen および Stable Diffusionを参照)。拡散では、モデルは、音声や画像など、完全にノイズで構成される開始データから徐々にノイズを差し引く方法を学習し、目標のプロンプトに段階的に近づけます。

音響シーンのテキストによる説明が与えられると、AudioGen は「現実的な録音条件」と「複雑なシーンの内容」を備えた環境音を生成できます。

更新情報知らせます はい 不要