Chat GPTでも背景の透過ができるようになった！

毎日、蜘蛛の巣にかかるAtsushiです。

AIの画像生成能力の進歩が凄まじいですね。
Chat GPT image2.0は衝撃的です。

日本語がおかしかった部分も無くなりましたし、生成されるイメージも想像を超えてくるようになっています。

Chat GPTでの画像生成で一番ネックだったのが、画像の背景の透過でしたが、こちらも対応できるになったみたいです。

これで弱点がなくなりましたね。

これで神ツールとなったのかと言うとまだ苦手なものはあるようです。

現時点では下記のようなものが苦手だそうです。

1. 文字を正確に入れること

画像内の文字が崩れたり、スペルミスしたり、指定した位置に正確に入らなかったりすることがあるそうです。OpenAI公式ドキュメントでも、正確なテキスト配置や明瞭さには苦手が残ると説明されています。

2. 同じキャラクターを何枚も完全一致させること

これも2.0でかなり強化されているようですが、同じ人物・マスコット・商品キャラを、複数カットで完全に同じ見た目に保つのはまだ苦手なようです。公式にも、繰り返し登場するキャラクターやブランド要素の一貫性を維持できない場合があるとされています。

3. レイアウトが厳密なデザイン

「左上にロゴ、右下にQR、中央に人物、余白20px」のような、DTP・Webデザイン的に正確な配置は苦手なようです。確かに指定しても完全にスルーされることが多いです。公式にも、構造化された構図やレイアウト重視の画像では、要素を正確に置くのが難しい場合があると説明されています。
ですが、デザイン案の参考には十分に役立ってくれます。

4. 編集範囲をピンポイントで直すこと

こちらはあまり試していませんが、画像編集機能では一部を選択して修正できるようですが、選択範囲が常に正確とは限らず、編集が指定範囲の外まで影響することがあるそうです。OpenAI公式ヘルプにも、ハイライト範囲は必ずしも正確ではなく、編集が選択範囲外に及ぶ場合があると明記されています。

5. 手・指・細かい人体構造

以前より改善されていますが、手、指、歯、耳、アクセサリー、衣服の細部などは崩れることがあるとのこと。
確かに指はおかしいことよくありますね。

6. 正確な地図・建物配置・案内図

雰囲気のあるマップや観光パンフレット風のイラストは得意ですが、実在する道路・建物・境内配置を正確に再現するのは苦手だそうです。

7. ブランド・ロゴの完全再現

既存ロゴやブランドカラー、商品パッケージを完全に再現する用途は不安定だそうです。似た雰囲気は作れても、細部がズレたり、文字が崩れたりするそうです。公式ドキュメントでもブランド要素の一貫性には限界があるとされています。

8. 情報の正確性が必要な画像

これは生成してるので仕方ないかもしれません。「見た目としてそれっぽいもの」を作るのが得意で、正確な情報を保証するものではないとのこと。

神ツール化しているChat GPT image2.0ですが、まだまだ苦手なところも多いですね。
今後のアップデートでこれらの問題も改善させていくとなるとゾッとしますね。