Flexible multilingual image generation model















Wan v2.6 Text to Imageは、Black Forest Labsが開発した高機能で多用途なクリエイティブツールで、アーティスト、デザイナー、映画製作者、コンテンツクリエイターに高度なテキスト-to-イメージおよびミックスメディア生成機能を活用して、コンセプトアートやストーリーボード、デザイン mockup、ムードボード作成など、多様な分野で創造的なビジョンを具現化するための強力な資産を提供します。
このモデルの核心は、詳細なテキストプロンプト(中国語と英語の両方をサポート)を受け取り、ユーザーが記述した本質や雰囲気を捉えたカスタム画像に解釈することに優れています。フォトリアリスティックなシーン、想像力豊かなファンタジー世界、または物語の特定のスナップショットを思い描く場合でも、Wan v2.6はテキストの想像力をデジタルキャンバスに変えます。
モデルの際立った特徴の一つは、入力の柔軟性です。ユーザーはテキストだけでなく、リファレンス画像をアップロードして画像生成プロセスをガイドできます。これにより、スタイルガイド付きの作成が可能になり、プロンプトのビジョンを既存画像のムード、カラー、構成とブレンドできます。これは、視覚資産の一貫性を求めるプロフェッショナルや、特定の参照スタイルにプロンプトを適応させる場合に特に有用です。
出力のカスタマイズに関しては、Wan v2.6はプロジェクトのニーズに合わせた多様なクリエイティブコントロールを提供します。スクエア、ポートレート(4:3または16:9)、ランドスケープ(4:3または16:9)などのプリセットアスペクト比を選択でき、ソーシャルメディア、映画、プレゼンテーションの標準フォーマットに簡単に適合します。高度なユーザーはサポート範囲内で正確な画像寸法を指定でき、高解像度出力(大幅なピクセルサイズまで)を実現します。これにより、生成画像は詳細なデザイン作業、プロフェッショナルなプレゼンテーション、大規模プリントに適しています。
モデルは1回のプロンプトあたり最大5枚の画像を生成でき、異なる視覚解釈を迅速に探索できます。クリエイティブプロフェッショナルは「避けたいコンテンツ」機能を使用して、低品質、歪み、特定の望ましくない詳細などの不要要素をフィルタリングできます。これにより、創造的方向性を微調整し、出力の予期せぬ要素を減らせます。
繰り返し可能な結果を求める場合(共同作業や反復プロジェクトで重要)、モデルはランダムシード番号の選択をサポートします。同じシードと入力を再利用するだけで、以前の画像バリエーションを確実に再生成でき、一貫したアートディレクションと簡単な修正サイクルを実現します。
Wan v2.6は、安全性と責任あるコンテンツ生成を考慮して構築されています。コンテンツモデレーション機能があり、入力と出力をコンプライアンスと適切性でフィルタリングします。これにより、パブリックまたは商用プロジェクトで作業するユーザーにプロフェッショナルで敬意あるクリエイティブ環境を提供します。
モデルの入力と出力は、JPEG、JPG、PNG(アルファチャネルなし)、BMP、WEBPなどの多様な画像フォーマットをサポートし、入力画像解像度は384〜5000ピクセルです。出力フォーマットは画像ベースで、デジタルプロジェクト、プレゼンテーション、プリントデザインに即使用可能で、お好みのツールでのさらなる編集にも適しています。
Wan v2.6は幅広いクリエイティブオプションを提供しますが、出力はプロンプトの詳細さと明瞭さに影響されます。より具体的なプロンプトほど精密な結果が得られます。最大プロンプト長は2000文字で、さらにクリエイティブコントロールとして最大500文字のネガティブプロンプトを含められます。
要約すると、Wan v2.6 Text to Imageは、ビジュアルストーリーテリング、プロトタイピング、アーティスティックエクスプロレーションのための堅牢で使いやすいエンジンとして際立っています。異なるクリエイティブ職種のワークフローに適応し、カスタムビジュアルの生成を効率化し、インスピレーションを促進し、複雑な芸術的概念を迅速かつ確実に実現するための柔軟性を提供します。
A woman kneeling in darkness, illuminated by a warm, radiant beam of light emerging from her raised hand.
スタイル、照明、構図の詳細を含む希望の画像を説明するプロンプトを入力
モデルはシーンの物理、法則、照明、感情的な意図を理解
クリックして最終出力を作成し、プロ品質の画像をダウンロード
大気的なライティングとトレンドのフィルミックルックでシネマティックな広角ビジュアルを作成。ストーリーテリングに最適。

複数人をフィーチャーした活気ある憧れシーンを生成。正確なジェンダーとスタイリングで、モダンなライフスタイルブランディングに理想的。

建築の複雑さ、大気的な光、フォトリアリスティック詳細をレンダリング。モダンで憧れのビジュアルストーリーテリングを強化。

“High-end studio product photography of premium wireless over-ear headphones in matte black finish. Dramatic three-point lighting with soft key light from upper left, rim light highlighting the ear cup contours, and subtle fill. Clean white seamless backdrop with soft gradient. Sharp focus on texture details of the leather headband and brushed metal accents. Professional advertising quality, 8K resolution, photorealistic rendering.”

今日から推論ガイダンス合成に切り替えよう

Advanced text-to-image generation
0.2 クレジット

Unified text-to-image generation
0.6 クレジット

Fast, state-of-the-art image generation
0.8 クレジット

Seamless photorealistic tiling from text
0.3 クレジット

Ultra-fast advanced image generation
0.7 クレジット

Transparent background image generation
0.2 クレジット

Precise structured text-to-image generation
0.2 クレジット

Premium pro text-to-image generation
0.3 クレジット

Seamless photorealistic textures from text
0.8 クレジット