A Stability.AI bejelentése nagyszerû hírekkel szolgál mindazok számára, akiknek már az elsõ képek láttán megragadta a figyelmét és fantáziáját az AI képgenerálás témaköre
A Stable Diffusion egy olyan képgeneráló szoftver, amely fogyasztói szintû, otthoni számítógépekben is megtalálható hardvereket használ, hamarosan nyilvánosan is elérhetõ lesz. A Stable Diffusion hosztolt verziójával – amely a Stability AI Discord szerverén keresztül érhetõ el – a Stability AI akármilyen képgenerálást nem fog megengedni nekünk. A startup általános szerzõdési feltételei tiltják egyes trágár vagy szexuális anyagokat (bár a szûkösen öltözött alakokat nem), gyûlöletkeltõ vagy erõszakos képeket (például rasszizmus és gyûlöletkeltõ ideológiák) propaganda, szerzõi joggal védett vagy védjeggyel védett anyagokat tartalmazó felszólításokat, valamint személyes adatokat, mint pl. telefonszámok és társadalombiztosítási számok. Ennek érdekében a Stability AI az OpenAI-hoz hasonló kulcsszószûrõt alkalmaz a szerverén, amely megakadályozza, hogy a modell akár egy olyan képet is generáljon, amely esetleg sérti a használati szabályzatot, de állítólag megengedõbbnek tûnik a hasonló megoldásokhoz képest.
Ahogy már ezen a néhány mellékelt illusztráción is látható, a hamarosan megjelenõ AI modell által generált képek hihetetlenül jól néznek ki, különösen, ha figyelembe vesszük, hogy valójában mekkora GPU teljesítményre van szükség az elkészítésükhöz. A képgenerátor fejlesztését Robin Rombach, az LMU München gépi látás és tanulás kutatócsoportjának munkatársa, valamint Patrick Esser vezette, aki a Runway nevû videoszerkesztõ szoftver fejlesztésében segédkezett.
A közlemény megjegyzi, hogy az AI modell otthoni felhasználásra szánt GPU-kon 10 GB VRAM alatt hajlandó futni, ami azt jelenti, hogy a felhasználók többségének nem feltétlenül dolgozik ilyen a gépében. Lényegében egy 10GB-os Nvidia GeForce RTX 3080, esetleg egy AMD Radeon RX 6700, de akár egy RTX 3060 is megfelelõ lehet, mivel ironikus módon az RTX 3060 nagyobb VRAM-csomaggal gazdálkodhat, mint néhány erõsebb társa. A Stability AI több mint 10 000 béta tesztelõvel napi 1.7 millió képet generált a megközelítések feltárása érdekében. Úgy tûnik, hogy a mesterséges intelligencia 512x512 pixeles felbontású képeket néhány másodperc alatt képes létrehozni, de feltehetõleg a nagyobb képekre való felskálázás kicsit tovább tart. Még hosszú az út, a Stability AI csapata még mindig a képgenerálás jelenlegi módszerét kutatja.
Nem kizárt, hogy valamivel kisebb teljesítményû grafikus processzoron is futtatható, de a minimális GPU- és rendszerkövetelményekrõl nem esik szó. Mindezzel együtt is izgalmas alternatívát kínál azoknak az AI modelleknek, melyek ellátásához több Nvidia A100 GPU-t meghajtó szerverre van szükség. Végül pedig érdemes megemlíteni, hogy a bejelentés szerint teljesen ingyenes lesz.