AIで作った画像をAIは見分けられるのか！？ - のんびりしているエンジニアの日記

皆さんこんにちは
tereka114です。最近はNLP関係の技術調査も兼ねて、FB3をやってます。
最近の社会の流れを見ていて、少し時間の片隅でやってみたい事ができ、やったので、実験とその結果を書いておきます。

導入

今年はStable Diffusionが発表され、また、mimic、NovelAIなど画像の生成に関して
社会に劇的なインパクトを与えるモデル／サービスが発表されてきました。
今までの生成モデルもそれなりにおおっと言われてましたが、ここまでインパクトが世間的に出てくることはほとんどなかったのではないかと思っています。
私もお仕事であまり関係をしない都合上、GAN以降のモデルはノーマークだったので、非常に驚きました。（記憶だとBigGANが最後・・・）

私がGANを使っていた頃は32px, 64pxを生成するのが限度で、かつ、きれいではありませんでした。
それが、わずか数年（5年ほどだと思いますが・・・）こんなに綺麗な画像が生成できるとは思っていませんでした。
もちろん、機械学習エンジニアとして、AIすげぇ、大歓迎といった本人主観の一面だけで見た至極単純な感想もありますが、
デザイナー／イラストレーターさんからすると、やはり驚異の一つであり、既存の絵と近しいものが出てきた　といったことになれば、
AIによる絵のパクリなど、新しい問題が生まれるのは当然のことです。

そのためなのか、サービスの規約でAIの画像をアップロードを阻止しているといった情報もちらほらTwitterで見られています。

それらのAIが生成した画像の権利・倫理関係の良し悪しや実態の正誤はともかくとして、
人類が作った画像AIが作ったデータを見分けるのは将来的に価値があるものだと思っています。
段々と難しくなっていくと思いますが、今の段階だとどうなのかを見てみることは意味がありそうです。

準備

画像側のデータセットはほぼダウンロードするだけです。

Stable Diffusionのセットアップ

私はこのリンクのdocker/docker-composeを利用して、環境を構築しました。
注意しなければならないのはgit-lfsを入れておかないと、hugging faceからのモデルダウンロード時に実体が落ちてこないため、ハマります。
zenn.dev

次のコマンドを実行すれば、git-lfsをダウンロードできます。

sudo apt install git-lfs

実験

実験目的

本記事ではAIが作ったのか否かを見分けることを目的です。
利用用途を鑑みて次の2つを調査する必要があります。

同じドメインで見分けられるのか。例えば、ランドマークを学習させて、新しいランドマークが見つかったときに、そのランドマークを正しく判定できるのか。
違うドメインでも見分けられるのか。例えば、ランドマークを学習させて、車を判定する場合、その車は正しく判定できるのか。

データ作成

Stable Diffusionと人工のデータを準備し、単純に人類／AIで2値分類します。
一つのカテゴリだと難しいものもあるかもしれないので、いくつかのプロンプト（呪文）で試しました。

Category	Real Dataset	SD Prompt
Landmark	GLDv1	landmark
Car	myautage	car outside

リアル画像と生成された画像です。どうでしょう？わかりますでしょうか？

Landmark Original

Stable Diffusion Landmark

Car Original

Stable Diffusion Car

モデル作成

モデルはEfficientNetV2m（Pretrained ImageNet）で前処理を次の2つのパタンを試しました。
Resize/RandomCrop（学習）+Resize/CenterCrop（推論）を用いました。Resizeだと画像に加工が入るので、特徴的なノイズが含まれる場合、そのノイズが変な方向に修正、もしくは、消える可能性があります。
そのため、Crop系のであれば、そのノイズを加工せず取り込めることを期待します。