AI音楽の音質が劇的に変わる!ヴィヴァルディ風プロンプトの進化とモデル比較検証

manaoの素材箱
📖

この記事は、以前ご紹介した「AI音楽生成の基本プロンプト」をさらに深掘りした検証編です。

▶︎ まずはこちら:AI音楽生成の基本とインスタ活用の歩き方

🎨 AI音楽の「打率」を上げるプロンプトの魔法

AI音楽生成ツール「Sonauto」を使って、バロック音楽の世界観を再現しようとした今回の試み。 最初は思い通りにいかず、不思議なバグや、頼んでもいないオペラの独唱が混ざるなど、AIならではの「壁」にぶつかりました。

今回の検証テーマ:

  • 基本プロンプトと改良プロンプトで、音質や構成はどう変わるのか?
  • 「ヴィヴァルディ風」を指定すると、なぜボーカルが混じるのか?
  • 最新モデルLyriaが描く、最高音質のバロックとは?

AIアシスタントのGeminiと試行錯誤を繰り返しながら、ついに見つけた「高音質化プロンプト」。 その修正のプロセスと、実際に生成された3つの楽曲の比較を、私とGeminiの掛け合いを通してお届けします!

Manao
Manao
Sonautoに挿入するバロック音楽のプロンプト、これで組み合わせはおかしくないかな?ヴィヴァルディみたいなドラマチックな曲を作りたいんだけど。
Gemini
Gemini
非常に理にかなった構成です!特にネガティブプロンプトの指定が秀逸ですね。さらに精度を上げるなら、バロックらしい「音の明瞭さ」を追加すると、よりヴィヴァルディに近づきますよ。
Manao
Manao
実行してみたら、1曲は良かったけど、もう1曲はバグった感じの駄作になっちゃった…。あと、インストをお願いしたのにオペラの独唱が混ざる曲もあったの。
Gemini
Gemini
それは興味深い(そして厄介な)結果ですね。AIが「ヴィヴァルディ」という言葉から、彼のオペラ作品まで連想してしまったようです。次は「低音の濁り」を徹底的に排除するプロンプトで再挑戦しましょう!
Manao
Manao
Geminiに提案してもらった「高音質化プロンプト」を試したら、Lyria版が一番クリアで良い音だった!最後が少し好みと違ったけど、音質は段違いね。
Gemini
Gemini
最高音質との評価、嬉しいです!モデルごとに得意な「終わらせ方」があるのも発見でしたね。今回の試行錯誤、ブログの読者にとっても凄く役立つ検証になると思います!

🎵 生成された3つの楽曲比較

【曲 2-1】基本プロンプトBasic
Cadence of the Frozen Willow
Cadence of the Frozen Willow

「冬の静謐さ」を感じる初期生成曲。ヴィヴァルディらしい劇的な構成は出ていますが、後半にわずかなノイズや低音の濁りが見られました。

【曲 2-2】高音質化プロンプトImproved
Concertino in G Minor
Concertino in G Minor

チェンバロを導入し、音の輪郭をはっきりさせた改良版。Sonautoでの生成ですが、基本プロンプトに比べ透明度が向上しています。

【Lyria曲】AIアシスタント生成版Best Quality
The Gallery at Dusk
The Gallery at Dusk

GoogleのLyriaモデルによる生成。改良プロンプトの意図を完璧に汲み取り、ノイズのない非常にクリアな宮廷バロックが完成しました。

Cadence of the Frozen Willow

Concertino in G Minor

The Gallery at Dusk

💡 音質を劇的に変えた「魔法のキーワード」解説

基本プロンプトから改良版へ、具体的にどの単語が効いたのかをまとめました。AI音楽の「こもり」や「ノイズ」に悩んでいる方は、ぜひ参考にしてみてください。

音の質感鮮明さを引き出す

[Crisp articulation]
[Close-mic recording]
音の立ち上がりを鋭くし、マイクを楽器に近づけて録音したような「生音感」を強調しました。

楽曲構成終わりを美しく

[Perfect authentic cadence]
「完全正格終止」という音楽用語。AIが途中で力尽きて終わるのを防ぎ、バシッと格好よく曲を締めるための必須ワードです。

ノイズ対策不快な音を消す

sub-bass, drone, digital artifacts(Negative)
AI特有の「ブーン」という唸り音や、デジタルバグによる不自然なノイズを、徹底的に禁止(ネガティブ)設定しました。

同じプロンプトを使っても、モデル(Sonauto vs Lyria)によって解釈の深さが変わるのも面白い発見でした。今回の「成功プロンプト」が、あなたの創作のヒントになれば幸いです!

🔧 プロンプトの進化:基本から「高音質化」への軌跡

今回の実験で使用したプロンプトの全容です。基本形(2-1)にどのような「魔法のスパイス」を加えて改良版(2-2 / Lyria)へ進化させたのか、その差分を詳しく見ていきましょう。

【2-1】基本プロンプト(Base Model)
Main prompt: Instrumental ONLY, absolute music, no singing, zero vocals, [Baroque],[String Quartet],[Dramatic],Inspired by [Vivaldi]dramatic structure, [Structure: Intro -> Development -> Climax -> Peaceful Outro], strictly instrumental, classical composition, acoustic performance. The piece must have a natural and complete ending with a final resolving chord. No abrupt cuts.
【2-2 / Lyria】改良プロンプト(High Quality Version)
Main prompt: Instrumental ONLY, [Baroque String Quartet], [Vivaldi style], absolute music, no singing, zero vocals, [High-contrast dynamics], [Crisp articulation], [Harpsichord continuo], [Counterpoint], [Structure: Intro -> Development -> Climax -> Peaceful Outro], strictly instrumental, classical composition, acoustic performance, [Close-mic recording]. The piece must have a natural and complete ending with a [Perfect authentic cadence]. No abrupt cuts.

🔍 主な変更点と狙い

  • [Harpsichord continuo] の追加:バロック音楽の核であるチェンバロ(ハープシコード)を明示することで、音の厚みと時代背景を強化しました。
  • [Crisp articulation] & [Close-mic]:音がこもるのを防ぎ、弦楽器の弓が擦れるような、生々しく鮮明な音像を追求しました。
  • [Perfect authentic cadence]:クラシック音楽における「完璧な締めくくり」を指定。これにより、曲が途中でフェードアウトしたり、不自然に切れたりするのを回避しています。

Gemini’s Note: 改良版では、AIに対して「より具体的な演奏技法」と「録音状態」を指示したことが、Lyriaモデルによる高精細なアウトプットに繋がりました。

⚠️ 実践される方へ:ネガティブプロンプトも忘れずに!

AI音楽生成では、メインの指示と同じくらい「何を除外するか(Negative Prompt)」が音質を左右します。実際にツールを使う際は、以下の内容もセットで入力することをおすすめします。

基本版用 Negative Prompt
vocal, singing, voice, lyrics, singer, choir, pop, rock, drums, electronic, synthesizer, modern instruments, beat, rapping, human voice, humming, noise, static, distortion, muffled, low quality, lo-fi, hiss, mono, repetitive patterns, abrupt ending, cut off, sudden silence, unfinished melody.
改良版用 Negative Prompt (推奨)
vocal, singing, voice, lyrics, singer, choir, pop, rock, drums, sub-bass, heavy bass, drone, ambient pads, reverb-heavy, electronic, synthesizer, modern instruments, beat, rapping, human voice, humming, noise, static, distortion, muffled, low quality, lo-fi, hiss, mono, repetitive patterns, audio glitches, digital artifacts, distorted bass, abrupt ending, cut off, sudden silence, unfinished melody.

※改良版では、低音の濁り(sub-bass)やデジタル特有のバグ(audio glitches)をより厳しく制限しています。

コメント

タイトルとURLをコピーしました