Stability ogłasza Stable Diffusion 3, narzędzie do tworzenia obrazów AI nowej generacji

Zbliżenie / Stabilna dyfuzja 3. generacji z wektorem: portret studyjny kameleona z bliska na czarnym tle.

W czwartek Stability AI ogłosiło Stable Diffusion 3, model syntezy obrazu nowej generacji z otwartymi wagami. Podąża za swoimi poprzednikami, tworząc szczegółowe, wielotematyczne obrazy o lepszej jakości i dokładności w tworzeniu tekstu. Krótkiemu ogłoszeniu nie towarzyszyła publiczna demonstracja, ale stabilność tak Otwórz listę oczekujących Dziś dla tych, którzy chcą spróbować.

Według Stable rodzina modeli Stable Diffusion 3 (która pobiera opisy tekstowe zwane „podpowiedziami” i zamienia je w odpowiednie obrazy) ma rozmiar od 800 milionów do 8 miliardów parametrów. Skala umożliwia lokalne uruchamianie różnych wersji modelu na różnych urządzeniach – od smartfonów po serwery. Rozmiar parametru w przybliżeniu odpowiada możliwościom modelu pod względem ilości szczegółów, jakie może wygenerować. Większe modele wymagają również do działania większej ilości pamięci VRAM w akceleratorach graficznych.

Od 2022 roku Stable wprowadza ewolucję modeli generowania obrazów AI: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, a teraz 3. Stabilność zyskała sławę jako zapewniająca bardziej otwartą alternatywę dla zastrzeżonych modeli syntezy obrazu, takich jak DALL-E 3 OpenAI, chociaż nie jest pozbawiona kontrowersji ze względu na korzystanie z szkoleń chronionych prawem autorskim dane. Stronniczość i możliwość nadużyć. (Doprowadziło to do nierozstrzygniętych procesów sądowych). Modele dyfuzji w stanie ustalonym miały charakter otwarty i opierały się na otwartym kodzie źródłowym, co oznaczało, że można je było uruchamiać lokalnie i dostrajać w celu zmiany wyników.

Jeśli chodzi o ulepszenia techniczne, powiedział dyrektor generalny ds. stabilności, Imad Mushtaq książki Na

READ  Mówi się, że iPhone SE 4 będzie wyposażony w przycisk akcji, USB-C, Face ID i wiele więcej

Jak powiedział Mostaque, rodzina Stable używa Diffusion 3 Budowa transformatorów dyfuzyjnychnowa metoda tworzenia obrazów z wykorzystaniem sztucznej inteligencji, która zastępuje zwykłe elementy budujące obraz (np Architektura UNET) dla systemu, który działa na małych fragmentach obrazu. Metoda ta inspirowana jest transformatorami, które dobrze radzą sobie z wzorami i sekwencjami. Takie podejście nie tylko zwiększa wydajność, ale mówi się również, że pozwala uzyskać obrazy o wyższej jakości.

Używana jest również Stable Diffusion 3”Dopasowanie przepływu„, technikę tworzenia modeli sztucznej inteligencji, która może tworzyć obrazy, ucząc się, jak przejść od losowego szumu do obrazu o gładkiej strukturze. Dzieje się tak bez konieczności symulowania każdego etapu procesu, a zamiast tego skupia się na ogólnym kierunku lub przepływie powinno następować tworzenie obrazu.

Porównanie wyjścia DALL-E 3 i Stable Diffusion 3 OpenAI z routerem, "Nocny obraz samochodu sportowego z tekstem "SD3" Z boku samochód jedzie z dużą prędkością po torze wyścigowym, na którym znajduje się ogromny znak drogowy
Zbliżenie / Porównanie wyników pomiędzy DALL-E 3 OpenAI i Stable Diffusion 3 z oświadczeniem „Nocny obraz samochodu sportowego z tekstem „SD3” z boku, samochód na torze wyścigowym z dużą prędkością, ogromny znak drogowy z tekstem „Szybciej” „.”

Nie mamy dostępu do Stable Diffusion 3 (SD3), ale z próbek, które znaleźliśmy na stronie Stable i na powiązanych kontach w mediach społecznościowych, Generations wyglądają mniej więcej porównywalnie z innymi nowoczesnymi modelami fotomontażu. W tym wspomniane DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney i Google Imagen.

Wydaje się, że SD3 bardzo dobrze radzi sobie z generowaniem tekstu w przykładach dostarczonych przez innych, które prawdopodobnie zostały wybrane. Generowanie tekstu było szczególną słabością poprzednich montaży obrazów, więc ulepszenie tej możliwości w dowolnej formie to wielka sprawa. Również dokładność prędkości (jak bardzo jest zgodna z opisami w podpowiedziach) wydaje się podobna do DALL-E 3, ale sami tego jeszcze nie testowaliśmy.

Chociaż Stable Diffusion 3 nie jest powszechnie dostępny, Stability twierdzi, że po zakończeniu testów jego wagi będą można pobrać bezpłatnie i uruchamiać lokalnie. „Ta faza podglądu, podobnie jak w przypadku poprzednich modeli, ma kluczowe znaczenie dla zebrania pomysłów mających na celu poprawę jego wydajności i bezpieczeństwa przed udostępnieniem do użytku publicznego” – napisał Stability.

READ  Losowo: Ludzie są przekonani, że Charles Martinet to nic dziwnego, że Super Mario Bros

Ostatnio testowano stabilność w różnych architekturach montażu obrazów. Oprócz SDXL i SDXL Turbo, firma ogłosiła to w zeszłym tygodniu Stabilna kaskadaktóry wykorzystuje trzyetapowy proces nakładania tekstu na obraz.

Obraz aukcji według Imad Mushtaq (sztuczna inteligencja zapewniająca stabilność)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *