GAN - Kako mjeriti performanse GAN-a?

Fotografiju Dawida Małeckog

U GAN-ovima ciljna funkcija generatora i diskriminirača obično mjeri koliko su dobre u odnosu na protivnika. Na primjer, mjerimo koliko dobro generator zavara diskriminatoru. To nije dobra metrika za mjerenje kvalitete slike ili njene raznolikosti. Kao dio GAN serije razmatramo Inception Score i Fréchet Inception Distance kako usporediti rezultate različitih GAN modela.

Početni rezultat (IS)

IS koristi dva kriterija za mjerenje performansi GAN-a:

  • Kvaliteta generiranih slika i
  • njihova raznolikost.

Entropija se može promatrati kao slučajnost. Ako je vrijednost slučajne varijable x vrlo predvidljiva, ona ima malu entropiju. Naprotiv, ako je izrazito nepredvidljiv, entropija je velika. Na primjer, na donjoj slici imamo dvije distribucije vjerojatnosti p (x). p2 ima veću entropiju od p1 jer p2 ima ravnomjerniju raspodjelu, a samim tim i manje predvidljivu o tome što je x.

U GAN-u želimo da je uvjetna vjerojatnost P (y | x) vrlo predvidljiva (niska entropija). tj. s obzirom na sliku, trebali bismo lako znati vrstu objekta. Stoga koristimo početnu mrežu da razvrstamo generirane slike i predvidimo P (y | x) - gdje je y oznaka, a x generirani podaci. Ovo odražava kvalitetu slika. Dalje moramo izmjeriti raznolikost slika.

P (y) je granična vjerojatnost izračunana kao:

Ako su generirane slike raznolike, raspodjela podataka za y trebala bi biti ujednačena (velika entropija).

Na slici ispod prikazan je ovaj koncept.

Da bismo kombinirali ova dva kriterija, izračunali smo njihovu KL-divergenciju i pomoću donje jednadžbe izračunali IS.

Jedan nedostatak IS-a je da može pogrešno predstaviti izvedbu ako stvara samo jednu sliku po razredu. p (y) će i dalje biti jednoličan iako je raznolikost mala.

Fréchet početna udaljenost (FID)

U FID-u koristimo mrežu Inception da izvučemo značajke iz srednjeg sloja. Zatim modeliramo raspodjelu podataka za ove značajke koristeći multivarijantnu Gaussovu raspodjelu sa srednjom µ i kovarijancijom Σ. FID između stvarnih slika x i generiranih slika g izračunava se kao:

gdje Tr zbraja sve dijagonalne elemente.

Niže FID vrijednosti znače bolju kvalitetu slike i raznolikost.

FID je osjetljiv na kolaps načina rada. Kao što je prikazano u nastavku, udaljenost se povećava simuliranim modovima koji nedostaju.

Izvor Niži FID rezultat identificira bolji model.

FID je otporniji na buku od IS-a. Ako model generira samo jednu sliku po razredu, udaljenost će biti velika. Tako je FID bolje mjerilo za raznolikost slike. FID ima prilično veliku pristranost, ali malu varijancu. Računajući FID između skupa podataka obuke i skupa podataka za testiranje, trebali bismo očekivati ​​da je FID jednak nuli, jer su obje stvarne slike. Međutim, provođenje testa s različitim serijama uzorka treninga ne pokazuje nulu FID.

Izvor

Također, i FID i IS temelje se na izvlačenju značajki (prisutnost ili odsutnost značajki). Hoće li generator imati isti rezultat ako se ne održava prostorni odnos?

Preciznost, opoziv i F1 ocjena

Ako generirane slike u prosjeku izgledaju poput stvarnih slika, preciznost je velika. Visoki opoziv podrazumijeva da generator može generirati bilo koji uzorak pronađen u skupu podataka za trening. F1 ocjena je harmonični prosjek preciznosti i opoziva.

U istraživačkom radu Google Brain „Jesu li GAN-ovi stvoreni jednaki“, kreiran je eksperiment s igračkama s nizom podataka o trokutima za mjerenje preciznosti i opoziva različitih GAN modela.

Izvor

Ovaj skup podataka igračaka može mjeriti performanse različitih GAN modela. Možemo ga koristiti za mjerenje prednosti različitih troškovnih funkcija. Na primjer, hoće li nova funkcija dobro proizvesti visokokvalitetni trokut s dobrim pokrivanjem?

upućivanje

Poboljšane tehnike za obuku GAN-ova

Jesu li GAN stvoreni jednaki? Studija velikog obima

GAN-ovi obučeni pomoću dvostrukog vremenskog sustava ažuriranja pravila konvergiraju se u lokalnu ravnotežu Nash-a