AIで画像生成をした際に、日本語がおかしくなりがちなのはなぜ？

久しぶりにカバンを忘れて出社したatsushiです。

みなさんは、AIで画像を生成されることはありますか？

風景写真などは、ChatGPTもGeminiも、もう問題無いレベルのクオリティのものを生成してくれるようになりましたが、バナーなどの画像の上に文字がのるものを作ろうとすると問題が起こります。

画像の上の文字が、中国語？韓国語？なのかよくわからない文字がならんでしまいます。

これは、現状どうにもならなそうで、結局、文字は入れないものを生成して、Photoshopなどで、文字入れをしなければなりません。

しばらくは、これで行くしかなさそうですね。

でもなぜそうなってしまうのでしょうか？

AIで画像生成をしたときに日本語が崩れやすい理由は、主に次の5つがあるようです。

1.文字を「言語」として理解していない

画像生成AIは、文字を意味のある文章として生成しているわけではないらしく、

・人間 → 「文字＝言語」
・画像AI → 「文字＝模様の一種」

つまり「看板っぽい模様」を描いているだけで、実際の日本語として正しく組み立てているわけではないそうです。

2.日本語の文字構造が複雑すぎる

英語と比べて、日本語はひらがな、カタカナ、漢字があり、圧倒的に難しい。
特に漢字は画数が多く、構造が複雑なため、画像モデルが正確に再現しにくいようです。

3.学習データの不足

多くの画像生成AIは、英語データが圧倒的に多く、日本語フォント付き画像は少なく、日本語OCR付き学習データも限定的なため、

・英語 → 比較的まともに出る
・日本語 → 文字化けしやすい

という現象が起こるようです。

4.画像生成モデルは「ピクセル予測モデル」

テキスト生成AI（ChatGPTなど）は文字単位で次の単語を予測します。

一方、画像生成AIは「次に来るピクセルの色」を予測しているため、正しい文字を書く構造になっていないようです。

5.フォントの概念を持っていない

画像AIは、明朝体、ゴシック体、手書き風といったフォント概念を完全には理解していません。

そのため、「一文字ごとに崩れる」「文字の一部が欠ける」「存在しない漢字が生まれる」という現象が起きるそうです。

以上が日本語が崩れやすい理由だそうです。

元々、文字が書けるような設計になっていないため、難しいのが現状のようです。

改善されるにはもう少し時間がかかりそうですね。

当分は、文字なしで生成してPhtoshopで文字入れが最良の方法かもしれません。

そのうち、そんな問題も軽く突破してしまう国産画像生成AIも出てくるんでしょうね。おそろしい…