Stable Diffusion

Stabilná Difúzia (Stable Diffusion)

Obrázok generovaný pomocou Stable Diffusion 3.5 s použitím textového vstupu a photograph of an astronaut riding a horse (fotografia astronauta jazdiaceho na koni)
Základné informácie
AutorRunway, CompVis a Stability AI
VývojárStability AI
UvedenieAugust 22, 2022
Posledná aktuálna verziaSD 3.5 (model)[1] (October 22, 2024)
LokalizáciaPython
Typ softvéruModel text-na-obrázok
LicenciaKomunitná Licencia Stability AI
Ďalšie odkazy
Webová stránkastability.ai/stable-image

Pozri aj Informačný portál

Stabilná difúzia (Stable Diffusion) je model hĺbkového strojového učenia, prevádzajúci text na obraz, ktorý bol na trh uvedený v roku 2022 na základe technológie tzv. difúzie. Je popredným produktom spoločnosti Stability AI.

Primárne je určená na generovanie podrobných obrázkov na základe textových popisov, možno ju však použiť aj na iné úlohy, ako je napríklad inpainting, outpainting a prekresľovanie obrázkov na základe textovej výzvy, text prompt. [2] Na jeho vývoji sa podieľali výskumníci z CompVis Group na Ludwig Maximilian Univerzity v Mníchove a Runway s výpočtovým príspevkom od Stability AI a tréningovými dátami od neziskových organizácií. [3] [4] [5]

Stabilná difúzia (Stable Diffusion) je model latentnej difúzie, druh hlbokej generatívnej neurónovej siete umelej inteligencie. Navrhnutá bola s verejne dostupným zdrojovým kódom[6]. Umožňuje tak komunite vývojárov prístup ku jej kódu a jej ďalšie vylepšovanie. Je schopná fungovať na väčšine spotrebiteľského hardvéru vybaveného bežnou GPU s najmenej 4 GB VRAM.

Odklon od predchádzajúcich proprietárnych generatívnych modelov prevodu textu na obrázok, ako sú DALL-E a Midjourney, ktoré sú dostupné iba prostredníctvom cloudových služieb, je v jej použiteľnosti lokálne.[7]

Vývoj

Stabilná difúzia (Stable Diffusion) vznikla z projektu s názvom Latentná difúzia (Latent Diffusion)[8], ktorý vyvinula skupina nemeckí výskumníci z Ludwig Maximilian University v Mníchove a Heidelberg University. Štyria z pôvodných piatich autorov (Robin Rombach, Andreas Blattmann, Patrick Esser a Dominik Lorenz) sa neskôr pripojili k Stability AI a vydali ďalšie verzie Stable Diffusion. [9]

Technická licencia na model bola vydaná skupinou CompVis na Ludwig Maximilian University v Mníchove. Vývoj viedli Patrick Esser zo spoločnosti Runway a Robin Rombach z CompVis, ktorí predtým vynašli architektúru modelu latentnej difúzie (latent diffusion) používanú právé Stabilnou Difúziou (Stable Diffusion). Stability AI uznáva podporu EleutherAI a LAION, nemeckej neziskovej organizácie, ktoré zostavili kľúčovú sadu dát, na trénovanie Stabilnej Difúzie (Stable Diffusion).

Technológia

Schéma architektúry latentnej difúzie, ktorú používa Stabilná Difúzia
Proces odšumovania, ktorý používa Stabilná Difúzia. Model generuje obrázky postupným opakovaným odšumovaním náhodného šumu, kým sa nedosiahne nakonfigurovaný počet krokov, vedený textovým kódovačom CLIP vopred natrénovaným na koncepty spolu s mechanizmom pozornosti, výsledkom čoho je požadovaný obrázok zobrazujúci reprezentáciu natrénovaného konceptu.

Architektúra

Modely zo série Stable Diffusion pred verziou SD 3 používali typ difúzneho modelu (DM) nazývaný latentný difúzny model (LDM), ktorý vyvinula skupina CompVis (Computer Vision & Learning)[10] na LMU v Mníchove.[6] Difúzne modely boli prvýkrát predstavené v roku 2015. Sú trénované s cieľom postupne odstraňovať aplikácie Gaussovho šumu z tréningových obrázkov. Tento proces možno predstaviť ako sekvenciu autoenkodérov na odšumenie. Stable Diffusion pozostáva z troch hlavných častí: variabilného autoenkodéra (VAE), U-Netu a voliteľného textového enkodéra.[11] Enkodér VAE komprimuje obrázok z pixelového priestoru do latentného priestoru s menšími dimenziami, kde sa zachytáva podstatný sémantický význam obrázka. Počas procesu difúzie sa na túto latentnú reprezentáciu iteratívne pridáva Gaussov šum.[11] U-Net blok, postavený na ResNet chrbticovej architektúre, postupne odstraňuje šum z latentnej reprezentácie počas spätnej difúzie, čím obnovuje obraz. Nakoniec dekodér VAE generuje výsledný obrázok, keď túto latentnú reprezentáciu prevedie späť do pixelového priestoru.[11]

Proces odšumovania môže byť flexibilne podmienený reťazcom textu, obrázkom alebo iným spôsobom. Zakódované údaje pre odšumovanie sú vystavené U-Nets sieti prostredníctvom mechanizmu krížovej pozornosti .[11] Na úpravu textu sa používa fixný, vopred pripravený textový kódovač CLIP ViT-L/14 na transformáciu textových výziev do vloženého priestoru.[6] Výskumníci poukazujú na zvýšenú výpočtovú efektivitu pre trénovanie a generovanie ako výhodu LDM.

Názov difúzia čerpá inšpiráciu z termodynamickej difúzie. V roku 2015 vzniklo dôležité prepojenie medzi týmto čisto fyzikálnym odborom a hlbokým strojovým učením.

S 860 miliónmi parametrov v U-Net a 123 miliónmi v textovom enkodéri je Stable Diffusion považovaný za relatívne nenáročný model podľa štandardov roku 2022. Na rozdiel od iných difúznych modelov dokáže bežať na bežných GPU pre spotrebiteľov,[12] a dokonca aj na samotnom CPU, ak sa používa verzia Stable Diffusion založená na OpenVINO.

SD XL

XL verzia používa rovnakú LDM architektúru ako predchádzajúce verzie, ale vo väčšom rozsahu: väčšej základnej štruktúry UNet, väčším kontextom krížovej pozornosti, jedným textovým kódovačom navyše a je trénovaná na viacerých pomeroch strán (nie len na obrázkoch so štvorcovým pomerom stránk ako predchádzajúce verzie).

SD XL Refiner, vydaný v rovnakom čase, má rovnakú architektúru ako verzia SD XL, ale bol strojovo naučený na pridávanie jemných detailov do už existujúcich obrázkov pomocou textovo podmieneného img2img (modelu obrázok-na-obrázok).

SD 3.0

  Verzia 3.0 úplne mení základnú štruktúru siete. Namiesto UNet používa Rectified Flow Transformer, ktorý implementuje metódu rectified flow [13] v spojení s Transformerom.

Architektúra Transformer používaná vo verzii SD 3.0 obsahuje tri „dráhy“ pre pôvodné textové kódovanie, transformované kódovanie, transformované textové a obrazu kódovanie (v latentnom priestore). Transformované textové kódovanie a obrazové kódovanie sa miešajú počas každého bloku Transformeru.

Architektúra je nazvaná "multimodal diffusion transformer (MMDiT), pričom "multimodál" znamená, že vo svojich operáciách mieša textové a obrazové kódovanie. To sa líši od predchádzajúcich verzií DiT, kde textové kódovanie ovplyvňovalo obrazové kódovanie, ale nie naopak.

Tréningové dáta

Stabilná Difúzia bola trénovaná na pároch obrázkov a popisov pochádzajúcich z LAION-5B, verejne dostupného súboru údajov zloženého z dát Common Crawl zozbieraných z internetu. Tento súbor údajov obsahuje 5 miliárd párov obrázkov a textov, klasifikovaných na základe jazyka a filtrovaných do samostatných súborov údajov podľa rozlíšenia, pravdepodobnosti, že obsahujú vodoznak a predpovedaného „estetického“ skóre (napr. subjektívna vizuálna kvalita).[14] Súbor údajov vytvorila nemecká nezisková organizácia LAION, ktorá je financovaná spoločnosťou Stability AI. [14] [15]

Model Stabilnej Difúzie bol trénovaný na troch podskupinách LAION-5B: laion2B-en, laion-high-resolution a laion-aesthetics v2 5+. [14] Analýza tréningových dát od tretej strany odhalila, že z menšej vzorky 12 miliónov obrázkov pochádzajúcich z pôvodného súboru údajov, pochádzalo približne 47% obrázkov pochádzalo zo 100 rôznych domén, pričom Pinterest tvoril 8,5% tejto vzorky. Nasledovali webové stránky ako WordPress, Blogspot, Flickr, DeviantArt a Wikimedia Commons. Vyšetrovanie realizované Bayerischer Rundfunk ukázalo, že súbory údajov LAION, hostované na Hugging Face, obsahujú veľké množstvo súkromných a citlivých údajov. [16]

Tréningové postupy

Model bol pôvodne trénovaný na podskupinách laion2B-en a laion-high-resolution, pričom posledné kolá tréningu boli vykonané na LAION-Aesthetics v2 5+, podskupine obsahujúcej 600 miliónov obrázkov s popismi. Tieto obrázky boli vybrané na základe predikcie LAION-Aesthetics Predictor V2, ktorá odhadovala, že ľudia by im priemere dali hodnotenie aspoň 5 z 10, keď by boli požiadaní, aby ohodnotili, ako sa im páčia. [14] [17] Podskupina LAION-Aesthetics v2 5+ taktiež vylúčila obrázky s nízkym rozlíšením a obrázky, ktoré nástroj LAION-5B-WatermarkDetection identifikoval s pravdepodobnosťou vyššou ako 80 %, že obsahujú vodoznak.[14] Počas záverečných kôl tréningu bolo navyše z textového podmieňovania vypustených 10 % dát, aby sa zlepšilo Classifier-Free Diffusion Guidance.[4]

Model bol trénovaný pomocou 256 grafických kariet Nvidia A100 na Amazon Web Services pre celkovo 150000 hodín GPU za cenu 600000 USD. [18] [19] [20]

Obmedzenia

Stable Diffusion problémy s degradáciou a nepresnosťami v určitých situáciách. Počiatočné verzie modelu boli trénované na dátovej sade pozostávajúcej z obrázkov s rozlíšením 512×512, čo znamená, že kvalita generovaných obrázkov viditeľne klesá, keď používateľské nastavenia odchýlia od „očakávaného“ rozlíšenia 512×512.[21] Aktualizácia na verziu 2.0 neskôr zaviedla možnosť natívne generovať obrázky s rozlíšením 768×768.[22] Ďalšou výzvou je generovanie ľudských končatín, čo je spôsobené nízkou kvalitou údajov o končatinách v databáze LAION.[23] Model nie je dostatočne trénovaný na pochopenie ľudských končatín a tvárí kvôli nedostatku reprezentatívnych prvkov v databáze, a pokusy vygenerovať obrázky tohto typu môžu pre model pôsobiť mätúco.[24] Verzia Stable Diffusion XL (SDXL) 1.0, ktorá bola vydaná v júli 2023, priniesla natívne rozlíšenie 1024×1024 a vylepšené generovanie končatín a textu.[25] [26]

Dostupnosť pre individuálnych vývojárov môže tiež byť problémom. Na prispôsobenie modelu pre nové použitia, ktoré nie sú zahrnuté v pôvodnej dátovej sade, ako napríklad generovanie anime postáv („waifu diffusion“),[27] sú potrebné nové dáta a dodatočné trénovanie. Jemne doladené adaptácie Stable Diffusion, vytvorené prostredníctvom ďalšieho pretrénovania, boli použité na rôzne účely, od medicínskeho zobrazovania po algoritmicky generovanú hudbu.[28]

Tento proces jemného doladenia je však citlivý na kvalitu nových dát; obrázky s nízkym rozlíšením alebo s iným rozlíšením než pôvodné dáta môžu nielenže zlyhať pri učení novej úlohy, ale dokonca zhoršiť celkový výkon modelu. Dokonca aj pri použití vysokokvalitných obrázkov je pre jednotlivcov náročné prevádzkovať modely na bežnej spotrebiteľskej elektronike. Napríklad tréningový proces pre waifu-diffusion vyžaduje minimálne 30 GB VRAM,[29] čo presahuje kapacitu bežných spotrebiteľských grafických kariet, ako je napríklad séria Nvidia GeForce 30, ktorá má len približne 12 GB VRAM.[30]

Tvorcovia Stable Diffusion si uvedomujú potenciál algoritmickej zaujatosti, keďže model bol primárne trénovaný na obrázkoch s anglickými popismi.[19] V dôsledku toho generované obrázky často posilňujú spoločenské predsudky a odrážajú západnú perspektívu, pričom samotní tvorcovia priznávajú, že modelu chýbajú dáta z iných komunít a kultúr. Model poskytuje presnejšie výsledky pri zadaniach v angličtine v porovnaní s inými jazykmi, pričom západná alebo biela kultúra často predstavuje predvolenú reprezentáciu.[19]

Koncové ladenie

Na riešenie obmedzení počiatočného tréningu modelu môžu koncoví používatelia zvoliť dodatočný tréning na doladenie výstupov generovania tak, aby lepšie zodpovedali konkrétnym prípadom použitia, čo sa tiež označuje ako personalizácia. Existujú tri metódy, ktorými je možné aplikovať používateľsky prístupné doladenie na modelový checkpoint Stable Diffusion:

  • „Embedding“ (vloženie) môže byť natrénované z kolekcie používateľom poskytnutých obrázkov, čo modelu umožňuje generovať vizuálne podobné obrázky vždy, keď sa názov vloženia použije v generačnom príkaze.[31] Embeddingy sú založené na koncepte „textual inversion“ (textová inverzia), ktorý vyvinuli výskumníci z Telavivskej univerzity v roku 2022 s podporou spoločnosti Nvidia. Tento koncept spája vektorové reprezentácie špecifických tokenov, ktoré používa textový enkóder modelu, s novými pseudo-slovami. Embeddingy môžu byť použité na zníženie zaujatostí v pôvodnom modeli alebo na napodobňovanie vizuálnych štýlov.
  • „Hypernetwork“ (hypernetová sieť) je malá predtrénovaná neurónová sieť, ktorá sa aplikuje na rôzne miesta v rámci väčšej neurónovej siete. Ide o techniku vytvorenú vývojárom Kurumuzom zo spoločnosti NovelAI v roku 2021, pôvodne určenú pre transformátorové modely generujúce text. Hypernetové siete usmerňujú výsledky určitým smerom, čo umožňuje modelom založeným na Stable Diffusion napodobňovať umelecký štýl konkrétnych umelcov, aj keď tento umelec nie je rozpoznávaný pôvodným modelom. Obraz spracovávajú tak, že identifikujú kľúčové oblasti, ako sú vlasy a oči, a následne tieto oblasti „opravujú“ v sekundárnom latentnom priestore.[32]
  • DreamBooth je model hlbokého učenia, ktorý vyvinuli výskumníci z Google Research a Bostonskej univerzity v roku 2022. Tento model dokáže doladiť generovanie tak, aby vytváral presné, personalizované výstupy, ktoré zobrazujú konkrétny objekt alebo subjekt. Proces zahŕňa trénovanie na súbore obrázkov, ktoré zobrazujú daný objekt alebo subjekt.[33]

Možnosti

Model Stabilnej Difúzie podporuje možnosť generovať nové obrázky od nuly pomocou textového popisu (text prompt) popisujúceho prvky, ktoré majú byť zahrnuté alebo vynechané z obrázkového výstupu.[6] Existujúce obrázky môže model prekresliť tak, aby zahŕňali nové prvky popísané v textovom popise (proces známy ako „riadená syntéza obrázkov“ ) prostredníctvom mechanizmu odšumovania. [6] Model tiež umožňuje použitie textu na čiastočnú zmenu existujúcich obrázkov pomocou inpainting (prekresľovania) a outpainting (domaľovania), ak je model použitý s vhodným používateľským rozhraním, ktoré tieto funkcie podporuje. Existuje množstvo užívateľských rozhraní s otvoreným zdrojom.[34]

Odporúča sa používať model Stabilnej Difúzie s najmenej 10 GB VRAM, avšak používatelia s menšou VRAM sa môžu rozhodnúť spustiť váhy s presnosťou float16 namiesto predvolenej float32, čím sa výkon modelu vyrovná s nižším využitím VRAM.[21]

Generovanie obrázku z textu

Demonštrácia efektu negatívnych textových výziev (prompts) na generovaný obrázok
  • Hore: bez negatívnej výzvy
  • V strede: "green trees" (zelené stromy)
  • Dole: "round stones, round rocks" (okrúhle kamene, okrúhle skaly)

Skript na vzorkovanie textu na obrázky v rámci Stable Diffusion, známy ako "txt2img", prijíma textovú výzvu spolu s rôznymi voliteľnými parametrami, ako sú typy vzorkovania, rozmery výstupného obrázku a hodnoty semena. Skript generuje obrázok na základe modelového výkladu výzvy.[6] Generované obrázky sú označené neviditeľným digitálnym vodoznakom, ktorý umožňuje používateľom identifikovať obrázok ako generovaný Stable Diffusion,[6] hoci tento vodoznak stráca účinnosť pri zväčšení alebo otočení obrázka.[35]

Každá generácia pomocou txt2img bude zahŕňať konkrétnu hodnotu vstupného parametra, ktorý ovplyvňuje výstupný obrázok. Používatelia môžu zvoliť náhodnú hodnotu vstupného parametra na preskúmanie rôznych generovaných výstupov, alebo použiť rovnakú hodnotu na získanie rovnakého výstupu obrázka ako pri predchádzajúcej generácii.[21] Používatelia môžu tiež upraviť počet krokov inferencie pre sampler; vyššia hodnota trvá dlhšiu dobu, zatiaľ čo menšia hodnota môže viesť k vizuálnym defektom.[21] Ďalšou konfigurovateľnou možnosťou je hodnota „guidance scale“, ktorá umožňuje používateľovi upraviť, ako presne výstupný obrázok odpovedá na výzvu. Experimentálnejšie prípady použitia môžu zvoliť nižšiu hodnotu škály, zatiaľ čo prípady, ktoré sa zameriavajú na presnejšie výstupy, môžu použiť vyššiu hodnotu.[21]

Dodatočné funkcie text2img poskytujú implementácie front-endu Stable Diffusion, ktoré umožňujú používateľom upraviť váhu pridelenú konkrétnym častiam textovej výzvy. Označovacie znamienka umožňujú používateľom pridať alebo znížiť dôraz na kľúčové slová ich uzatvorením do zátvoriek.[36] Alternatívna metóda na úpravu váhy častí výzvy sú „negatívne výzvy“. Negatívne výzvy sú funkcia zahrnutá v niektorých implementáciách front-endu, vrátane cloudovej služby DreamStudio od Stability AI, a umožňujú používateľom určiť výzvy, ktorým by sa model mal počas generovania obrázkov vyhnúť. Špecifikované výzvy môžu byť nežiaduce vlastnosti obrázka, ktoré by inak boli prítomné vo výstupoch obrázkov kvôli pozitívnym výzvam poskytnutým používateľom alebo kvôli tomu, ako bol model pôvodne trénovaný, pričom zohavené ľudské ruky sú častým príkladom.[34] [37]

Úprava obrazu

Ukážka modifikácie obrázka na obrázok (img2img)
  • Vľavo: Originálny obrázok vytvorený Stable Diffusion 1.5
  • Vpravo: Modifikovaný obrázok vytvorený Stable Diffusion XL 1.0

Stable Diffusion obsahuje aj ďalší skript na generovanie, „img2img“, ktorý spotrebúva textovú výzvu, cestu k existujúcemu obrázku a hodnotu sily medzi 0,0 a 1,0. Skript generuje nový obrázok na základe pôvodného obrázka, pričom do neho pridáva aj prvky uvedené v textovej výzve. Hodnota sily označuje množstvo šumu pridávaného do výstupného obrázka. Vysoká hodnota sily produkuje väčšie variácie v obrázku, ale môže tiež viesť k obrázku, ktorý nie je významovo konzistentný s poskytnutou výzvou.[6]

Existujú rôzne metódy na vykonanie img2img. Hlavná metóda je SDEdit, ktorá najskôr pridá šum k obrázku, a potom ho ako obvykle odšumí, podobne ako pri text2img.

Schopnosť img2img pridávať šum k pôvodnému obrázku môže byť užitočná na anonymizáciu údajov a augmentáciu údajov, pri ktorej sa vizuálne prvky obrazových dát menia a anonymizujú. Tento proces môže byť užitočný aj na upscale obrázkov, kde sa zvýši rozlíšenie obrázka, pričom môže byť pridané viac detailov do obrázka. Okrem toho, Stable Diffusion sa experimentálne používa aj ako nástroj na kompresiu obrázkov. V porovnaní s JPEG a WebP sa však súčasné metódy používané na kompresiu obrázkov v Stable Diffusion stretávajú s obmedzeniami pri zachovaní malého textu a tvárí.[38]

Ďalšie možnosti využitia pre úpravy obrázkov prostredníctvom img2img poskytujú rôzne front-end implementácie modelu Stable Diffusion. Inpainting zahŕňa selektívnu úpravu časti existujúceho obrázka, ktorú určuje vrstva masky poskytnutá používateľom, pričom zamaskované miesto vyplní novým obsahom založeným na poskytnutej výzve.[34] Špecializovaný model, ktorý bol konkrétne doladený pre inpaintingové prípady použitia, vytvorila Stability AI spolu s vydaním Stable Diffusion 2.0.[22] Naopak, outpainting rozširuje obrázok za jeho pôvodné rozmery, pričom vyplňuje predtým prázdne miesto obsahom generovaným na základe poskytnutej výzvy.[34]

Model riadený hĺbkou, nazvaný „depth2img“, bol predstavený spolu s vydaním Stable Diffusion 2.0 dňa 24. novembra 2022. Tento model odhaduje hĺbku z poskytnutého vstupného obrázka a generuje nový výstupný obrázok na základe textového vstupu aj informácií o hĺbke. Táto funkcia umožňuje zachovať súdržnosť a hĺbku pôvodného vstupného obrázka vo vygenerovanom výstupe.

ControlNet

ControlNet je architektúra neurónovej siete navrhnutá na riadenie difúznych modelov prostredníctvom pridania dodatočných podmienok. Zdvojuje váhy blokov neurónovej siete do „uzamknutej“ kópie a „trénovateľnej“ kópie. „Trénovateľná“ kópia sa učí požadovanú podmienku, zatiaľ čo „uzamknutá“ kópia zachováva pôvodný model. Tento prístup zaručuje, že tréning s malými datasetmi párov obrázkov nenaruší integritu difúznych modelov pripravených na produkciu. "Nulová konvolúcia" je 1×1 konvolúcia, pri ktorej sú váhy aj bias inicializované na nulu. Pred tréningom všetky nulové konvolúcie produkujú nulový výstup, čím zabraňujú akejkoľvek deformácii spôsobenej ControlNet. Žiadna vrstva sa netrénuje od nuly; proces stále predstavuje dolaďovanie (fine-tuning), čo zabezpečuje bezpečnosť pôvodného modelu. Táto metóda umožňuje tréning na malých datasetoch alebo dokonca na osobných zariadeniach.

Používateľské rozhrania

Stability AI poskytuje online službu generovania obrázkov s názvom DreamStudio. [39] [40] Spoločnosť tiež vydala verziu s otvoreným zdrojovým kódom DreamStudio s názvom StableStudio. [41] [42] Okrem oficiálnych rozhraní existuje aj mnoho rozhraní s otvoreným zdrojovým kódom od tretích strán, ako napríklad užívateľmi najobľúbenejšie rozhranie AUTOMATIC1111 Stable Diffusion Web UI, ktoré okrem základných, ponúka mnohé ďalšie funkcie, [43] Fooocus, ktorého cieľom je znížiť množstvo žiadostí potrebných pre používateľa [44] a ComfyUI, ktorý má užívateľské rozhranie založené na uzloch (nodes), vizuálnom programovacom jazyku podobnom mnohým aplikáciám 3D modelovania.

Vydania

Číslo verzie Dátum vydania Parametre Poznámky
1,1, 1,2, 1,3, 1,4 [45] august 2022 Všetky vydal CompVis. Neexistuje žiadna "verzia 1.0". 1.1 viedla k 1.2 a 1.2 viedla k 1.3 aj 1.4. [46]
1,5 [47] október 2022 983 mil Inicializované s váhami 1,2 a nie 1,4. Vydané RunwayML.
2.0 [48] november 2022 Preškolené od nuly na filtrovanej množine údajov. [49]
2.1 [50] decembra 2022 Inicializované s váhami 2,0.
XL 1.0 [51] júl 2023 3.5B Základný model XL 1.0 má 3,5 miliardy parametrov, vďaka čomu je približne 3,5-krát väčší ako predchádzajúce verzie. [52]
XL Turbo [53] november 2023 Destilované z XL 1.0, aby prebiehalo v menšom počte krokov difúzie. [54]
3.0 [55] Február 2024 (predbežná ukážka) 800 miliónov až 8B Rodina modelov.
3,5 [56] október 2024 2,5B až 8B Rodina modelov s Large (8 miliárd parametrov), Large Turbo (destilované z SD 3,5 Large) a Medium (2,5 miliardy parametrov).

Dôležité kľúčové papiere

  • Learning Transferable Visual Models From Natural Language Supervision (2021). Tento článok opisuje metódu CLIP na tréning textových enkodérov, ktoré prevádzajú text na desatinné vektory. Tieto textové enkódovania využíva model difúzie na generovanie obrázkov.
  • SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations (2021). Tento článok opisuje SDEdit, známe aj ako "img2img".
  • Syntéza obrázkov s vysokým rozlíšením pomocou latentných modelov difúzie (2021, aktualizované v 2022). [57] Tento článok opisuje latentný model difúzie (LDM). To je základ architektúry Stable Diffusion.
  • Classifier-Free Diffusion Guidance (2022). Tento článok opisuje CFG, ktorý umožňuje textovému enkodovaciemu vektoru nasmerovať model difúzie k vytvoreniu obrázka podľa textu.
  • SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis (2023). Popisuje SDXL.
  • Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow (2022).[13] Popisuje usmernený tok, ktorý sa používa ako základná architektúra SD 3.0.
  • Scaling Rectified Flow Transformers for High-resolution Image Synthesis (2024). Popisuje SD 3.0.

Náklady na školenie

  • SD 2.0: 0,2 milióna hodín na A100 (40 GB). [48]

Stabilná Difúzia 3.5 Large bola sprístupnená pre firemné použitie na Amazon Bedrock od Amazon Web Services.[58]

Použitie a kontroverzia

Stable Diffusion si nenárokuje žiadne práva na generované obrázky a užívateľom poskytuje práva na používanie všetkých generovaných obrázkov za predpokladu, že obsah obrázku nie je nelegálny alebo škodlivý pre jednotlivcov.[59]

Obrázky, na ktorých bol Stable Diffusion vyškolený, boli filtrované bez ľudského zásahu, čo spôsobilo, že sa v tréningových údajoch objavili niektoré škodlivé obrázky a veľké množstvo súkromných a citlivých informácií.[16]

Viac tradičných vizuálnych umelcov vyjadrilo obavy, že široké používanie softvéru na generovanie obrázkov, ako je Stable Diffusion, by mohlo nakoniec viesť k tomu, že ľudskí umelci, fotografi, modelky, kameramani a herci postupne stratia komerčnú životaschopnosť v súťaži s konkurenciou založenou na AI.

Stable Diffusion je v porovnaní s inými komerčnými produktmi generatívnej AI oveľa voľnejší v type obsahu, ktorý môžu používatelia generovať, ako napríklad násilné alebo sexuálne explicitné obrázky.[60] Na obavy, že by mohol byť tento model zneužívaný, CEO spoločnosti Stability AI, Emad Mostaque, tvrdí, že „je to zodpovednosť ľudí, aby sa rozhodovali eticky, morálne a legálne, ako túto technológiu používajú“, a že sprístupnenie schopností Stable Diffusion verejnosti prinesie celkový prospech, napriek potenciálnym negatívnym následkom. Okrem toho Mostaque tvrdí, že zámerom otvoreného prístupu k Stable Diffusion je ukončiť kontrolu a dominanciu korporácií nad takýmito technológiami, ktoré predtým vyvíjali uzavreté AI systémy na syntézu obrázkov [60] To je ilustrované aj tým, že akékoľvek obmedzenia, ktoré Stability AI ukladá na obsah, ktorý môžu používatelia generovať, môžu byť ľahko obídené vďaka dostupnosti zdrojového kódu[3].[61]

Kontroverzia okolo fotorealistických sexualizovaných zobrazení neplnoletých postáv sa objavila v dôsledku zdieľania takýchto generovaných obrázkov na webových stránkach, ako je Pixiv. [62]

V júni 2024 došlo k hacku na rozšírenie ComfyUI, používateľského rozhrania pre Stable Diffusion, pričom hackeri tvrdili, že útočili na používateľov, ktorí „spáchali jeden z našich hriechov“, čo zahŕňalo generovanie AI umenia, krádeže umenia a propagáciu kryptomien.[63]

Andersen, McKernan a Ortiz proti Stability AI, Midjourney a DeviantArt

Tri umelkyne, Sarah Andersen, Kelly McKernan a Karla Ortiz, podali v januári 2023 žalobu proti Stability AI, Midjourney a DeviantArt za porušenie autorských práv. Tvrdili, že tieto spoločnosti porušili práva miliónov umelcov tým, že trénovali nástroje AI na piatich miliardách obrázkov získaných z internetu bez súhlasu pôvodných umelcov. [64]

V júli 2023 sa americký okresný sudca William Orrick priklonil ku zamietnutiu väčšiny súdnych sporov, ktoré Andersen, McKernan a Ortiz podali. Umožnil im však podať novú sťažnosť, čo im poskytlo príležitosť preformulovať svoje argumenty. [65]

Getty Images proti Stability AI

Spoločnosť Getty Images iniciovala v januári 2023 súdne konanie proti spoločnosti Stability AI na najvyššom anglickom súde vo veci údajného porušenia jej práv duševného vlastníctva. Getty Images tvrdí, že Stability AI „nazbierala“ milióny obrázkov z webových stránok spoločnosti Getty bez súhlasu a použila tieto obrázky na trénovanie a vývoj svojho modelu Stabilnej Difúzie. [66] [67]

Medzi hlavné body súdneho sporu patria:

  • Getty Images tvrdí, že tréning a vývoj Stable Diffusion zahŕňal neoprávnené použitie jeho obrázkov, ktoré boli stiahnuté na servery a počítače nachádzajúce sa pravdepodobne vo Veľkej Británii. Stability AI však tvrdí, že celý tréning a vývoj prebehol mimo Veľkej Británie, konkrétne v dátových centrách AWS v USA.[68]
  • Stability AI podala žiadosť o zamietnutie a/alebo stiahnutie dvoch nárokov: nárok na tréning a vývoj a sekundárne porušenie autorských práv. High Court však odmietol zamietnuť tieto nároky, čím ich umožnil postupovať k súdnemu konaniu. Súd musí určiť, či tréning a vývoj Stable Diffusion prebehol vo Veľkej Británii, čo je kľúčové pre určenie jurisdikcie podľa Zákona o autorských právach, dizajnoch a patentoch z roku 1988. (CDPA)[69]
  • Sekundárny nárok sa týka otázky, či predtrénovaný softvér Stable Diffusion, dostupný vo Veľkej Británii prostredníctvom platforiem ako GitHub, HuggingFace a DreamStudio, predstavuje „článok“ podľa § 22 a 23 CDPA. Súd rozhodne, či pojem „článok“ môže zahŕňať aj nehmotné položky ako softvér.[69]

Očakáva sa, že súdny proces sa uskutoční v lete 2025. Má významné dôsledky na Britský zákon o autorských právach a udeľovanie licencií na obsah generovaný AI.

Licencia

Na rozdiel od modelov ako DALL-E, Stable Diffusion sprístupňuje svoj zdrojový kód[70] [6] ako aj samotný model (predtrenované váhy). Pred Stable Diffusion 3 používala licencia Creative ML OpenRAIL-M, čo je forma Responsible AI License (RAIL), na model (M).[71] Licencia zakazuje určité používania, vrátane trestných činov, urážky na cti, obťažovania, doxingu, „vykorisťovania maloletých“, poskytovania lekárskych rád, automatického vytvárania právnych záväzkov, poskytovania právnych dôkazov a „diskriminácie alebo škodlivého konania voči jednotlivcom alebo skupinám na základe sociálneho správania alebo osobných alebo osobnostných vlastností alebo legálne chránených vlastností alebo kategórií“[72] Používateľ vlastní práva k svojim generovaným výstupným obrázkom a môže ich voľne používať na komerčné účely.[73]

Stable Diffusion 3.5 uplatňuje otvorenú Stability AI Community License, pričom komerčné podniky s obratom presahujúcim 1 milión dolárov musia používať Stability AI Enterprise License.[74] Rovnako ako pri OpenRAIL-M licencii, používateľ si ponecháva práva k svojim generovaným výstupným obrázkom a môže ich voľne využívať na komerčné účely.[56]

Pozri tiež

Externé odkazy

Náhľad referencií

  1. Stable Diffusion 3.5 [online]. . Dostupné online. Archivované 2024-10-23 z originálu.
  2. . Dostupné online.
  3. . Dostupné online.
  4. . Dostupné online.
  5. . Dostupné online. (po anglicky)
  6. a b c d e f g h i . Dostupné online.
  7. . Dostupné online.
  8. . Dostupné online.
  9. . Dostupné online.
  10. . Dostupné online. (po anglicky)
  11. a b c d . Dostupné online.
  12. . Dostupné online.
  13. a b . Dostupné online.
  14. a b c d e . Dostupné online. (po anglicky)
  15. . Dostupné online. (po anglicky)
  16. a b . Dostupné online.
  17. . Dostupné online. (po anglicky)
  18. . Dostupné online. (po anglicky)
  19. a b c . Dostupné online.
  20. . Dostupné online. (po anglicky)
  21. a b c d e . Dostupné online.
  22. a b . Dostupné online.
  23. . Dostupné online. (po anglicky)
  24. . Dostupné online. (po anglicky)
  25. . Dostupné online. (po anglicky)
  26. . Dostupné online. (po anglicky)
  27. . Dostupné online.
  28. . Dostupné online.
  29. , https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md 
  30. . Dostupné online.
  31. . Dostupné online.
  32. . Dostupné online.
  33. . Dostupné online. (po japonsky)
  34. a b c d . Dostupné online.
  35. , https://github.com/ShieldMnt/invisible-watermark/blob/9802ce3e0c3a5ec43b41d503f156717f0c739584/README.md 
  36. . Dostupné online. (po anglicky)
  37. . Dostupné online.
  38. . Dostupné online. (po anglicky)
  39. . Dostupné online. (po anglicky)
  40. . Dostupné online.
  41. . Dostupné online.
  42. . Dostupné online. (po anglicky)
  43. . Dostupné online. (po anglicky)
  44. . Dostupné online. (po anglicky)
  45. . Dostupné online.
  46. . Dostupné online.
  47. Archivovaná kópia [online]. [Cit. 2025-01-19]. Dostupné online. Archivované 2023-09-21 z originálu.
  48. a b . Dostupné online.
  49. . Dostupné online.
  50. . Dostupné online.
  51. . Dostupné online.
  52. . Dostupné online. (po anglicky)
  53. . Dostupné online.
  54. . Dostupné online. (po anglicky)
  55. . Dostupné online. (po anglicky)
  56. a b . Dostupné online.
  57. [s.l.] : [s.n.]. (po anglicky)
  58. . Dostupné online. (po anglicky)
  59. . Dostupné online.
  60. a b . Dostupné online. (po japonsky)
  61. . Dostupné online. (po anglicky)
  62. . Dostupné online. (po anglicky)
  63. . Dostupné online. (po anglicky)
  64. . Dostupné online.
  65. BRITTAIN, Blake. US judge finds flaws in artists' lawsuit against AI companies. Reuters, 2023-07-19. Dostupné online [cit. 2023-08-06]. (po anglicky)
  66. GOOSENS, Sophia. Getty Images v Stability AI: the implications for UK copyright law and licensing [online]. 2024-02-28. Dostupné online.
  67. GILL, Dennis. Getty Images v Stability AI: copyright claims can proceed to trial [online]. 2023-12-11. Dostupné online.
  68. GOOSENS, Sophia. Getty v. Stability AI case goes to trial in the UK – what we learned [online]. 2024-02-28. Dostupné online.
  69. a b HILL, Charlotte. Generative AI in the courts: Getty Images v Stability AI [online]. 2024-02-16. Dostupné online.
  70. . Dostupné online.
  71. . Dostupné online. (po anglicky)
  72. . Dostupné online.
  73. . Dostupné online. (po japonsky)
  74. . Dostupné online. (po anglicky)