W czwartek Stability AI ogłosiło Stable Diffusion 3, model syntezy obrazu nowej generacji z otwartymi wagami. Podąża za swoimi poprzednikami, tworząc szczegółowe, wielotematyczne obrazy o lepszej jakości i dokładności w tworzeniu tekstu. Krótkiemu ogłoszeniu nie towarzyszyła publiczna demonstracja, ale stabilność tak Otwórz listę oczekujących Dziś dla tych, którzy chcą spróbować.
Według Stable rodzina modeli Stable Diffusion 3 (która pobiera opisy tekstowe zwane „podpowiedziami” i zamienia je w odpowiednie obrazy) ma rozmiar od 800 milionów do 8 miliardów parametrów. Skala umożliwia lokalne uruchamianie różnych wersji modelu na różnych urządzeniach – od smartfonów po serwery. Rozmiar parametru w przybliżeniu odpowiada możliwościom modelu pod względem ilości szczegółów, jakie może wygenerować. Większe modele wymagają również do działania większej ilości pamięci VRAM w akceleratorach graficznych.
Od 2022 roku Stable wprowadza ewolucję modeli generowania obrazów AI: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, a teraz 3. Stabilność zyskała sławę jako zapewniająca bardziej otwartą alternatywę dla zastrzeżonych modeli syntezy obrazu, takich jak DALL-E 3 OpenAI, chociaż nie jest pozbawiona kontrowersji ze względu na korzystanie z szkoleń chronionych prawem autorskim dane. Stronniczość i możliwość nadużyć. (Doprowadziło to do nierozstrzygniętych procesów sądowych). Modele dyfuzji w stanie ustalonym miały charakter otwarty i opierały się na otwartym kodzie źródłowym, co oznaczało, że można je było uruchamiać lokalnie i dostrajać w celu zmiany wyników.
Jeśli chodzi o ulepszenia techniczne, powiedział dyrektor generalny ds. stabilności, Imad Mushtaq książki Na
Jak powiedział Mostaque, rodzina Stable używa Diffusion 3 Budowa transformatorów dyfuzyjnychnowa metoda tworzenia obrazów z wykorzystaniem sztucznej inteligencji, która zastępuje zwykłe elementy budujące obraz (np Architektura UNET) dla systemu, który działa na małych fragmentach obrazu. Metoda ta inspirowana jest transformatorami, które dobrze radzą sobie z wzorami i sekwencjami. Takie podejście nie tylko zwiększa wydajność, ale mówi się również, że pozwala uzyskać obrazy o wyższej jakości.
Używana jest również Stable Diffusion 3”Dopasowanie przepływu„, technikę tworzenia modeli sztucznej inteligencji, która może tworzyć obrazy, ucząc się, jak przejść od losowego szumu do obrazu o gładkiej strukturze. Dzieje się tak bez konieczności symulowania każdego etapu procesu, a zamiast tego skupia się na ogólnym kierunku lub przepływie powinno następować tworzenie obrazu.
Nie mamy dostępu do Stable Diffusion 3 (SD3), ale z próbek, które znaleźliśmy na stronie Stable i na powiązanych kontach w mediach społecznościowych, Generations wyglądają mniej więcej porównywalnie z innymi nowoczesnymi modelami fotomontażu. W tym wspomniane DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney i Google Imagen.
Wydaje się, że SD3 bardzo dobrze radzi sobie z generowaniem tekstu w przykładach dostarczonych przez innych, które prawdopodobnie zostały wybrane. Generowanie tekstu było szczególną słabością poprzednich montaży obrazów, więc ulepszenie tej możliwości w dowolnej formie to wielka sprawa. Również dokładność prędkości (jak bardzo jest zgodna z opisami w podpowiedziach) wydaje się podobna do DALL-E 3, ale sami tego jeszcze nie testowaliśmy.
Chociaż Stable Diffusion 3 nie jest powszechnie dostępny, Stability twierdzi, że po zakończeniu testów jego wagi będą można pobrać bezpłatnie i uruchamiać lokalnie. „Ta faza podglądu, podobnie jak w przypadku poprzednich modeli, ma kluczowe znaczenie dla zebrania pomysłów mających na celu poprawę jego wydajności i bezpieczeństwa przed udostępnieniem do użytku publicznego” – napisał Stability.
Ostatnio testowano stabilność w różnych architekturach montażu obrazów. Oprócz SDXL i SDXL Turbo, firma ogłosiła to w zeszłym tygodniu Stabilna kaskadaktóry wykorzystuje trzyetapowy proces nakładania tekstu na obraz.
Obraz aukcji według Imad Mushtaq (sztuczna inteligencja zapewniająca stabilność)