Firma Apple udostępniła dziś kilka modeli wielkojęzykowych (LLM) typu open source, które zaprojektowano do działania na urządzeniu, a nie za pośrednictwem serwerów w chmurze. Programy LLM, zwane OpenELM (Open Source Efficient Language Models), są dostępne pod adresem Centralny element przytulającej twarzyspołeczność umożliwiająca udostępnianie kodu AI.
Jak pokazano w białej księdze [PDF]Istnieje osiem modeli OpenELM, z których cztery są wstępnie przeszkolone przy użyciu biblioteki CoreNet, a cztery to modele dostrojone do instrukcji. Apple stosuje strategię skalowania warstw, mającą na celu poprawę dokładności i wydajności.
Firma Apple dostarczyła kod, dzienniki szkoleniowe i wiele wersji, a nie tylko ostateczny model szkoleniowy, a badacze realizujący projekt mają nadzieję, że doprowadzi to do szybszego postępu i „bardziej wiarygodnych wyników” w dziedzinie sztucznej inteligencji języka naturalnego.
OpenELM, otwarty, ewoluujący model językowy. OpenELM wykorzystuje strategię skalowania warstw, aby efektywnie przydzielać parametry w każdej warstwie modelu transformatora, co skutkuje większą dokładnością. Na przykład przy budżecie parametrów wynoszącym około 1 miliarda parametrów OpenELM wykazuje poprawę dokładności o 2,36% w porównaniu z OLMo, wymagając jednocześnie 2x mniej tokenów do wstępnego szkolenia.
Odrywając się od poprzednich praktyk, które zapewniały jedynie wagi modeli, kod wnioskowania i wstępne uczenie na prywatnych zbiorach danych, nasza wersja zawiera kompletną strukturę do uczenia i ewaluacji modelu językowego na publicznie dostępnych zbiorach danych, w tym dzienniki szkoleniowe, wiele punktów kontrolnych i wstępne zwrotnica. Konfiguracje treningowe.
Apple twierdzi, że uruchamia modele OpenELM, aby „wzmocnić i wzbogacić społeczność otwartych badaczy” o nowoczesne modele językowe. Udostępnianie modeli na otwartym kodzie źródłowym umożliwia badaczom badanie zagrożeń, danych i błędów w modelach. Programiści i firmy mogą używać szablonów w niezmienionej postaci lub wprowadzać w nich modyfikacje.
Otwarta wymiana informacji stała się dla Apple ważnym narzędziem rekrutacji najlepszych inżynierów, naukowców i ekspertów, ponieważ umożliwia publikację artykułów naukowych, które normalnie nie zostałyby opublikowane zgodnie z polityką poufności Apple.
Apple nie wprowadziło jeszcze tego typu funkcji sztucznej inteligencji na swoich urządzeniach, ale oczekuje się, że iOS 18 będzie zawierał szereg nowych funkcji sztucznej inteligencji, a plotki sugerują, że Apple planuje uruchomić na urządzeniu własne, duże modele językowe w celu zapewnienia prywatności.