streszczenie: Nowe badanie zagłębia się w tajemniczy świat głębokich sieci neuronowych i odkrywa, że chociaż modele te potrafią rozpoznawać obiekty podobne do ludzkich systemów sensorycznych, ich strategie rozpoznawania różnią się od ludzkiej percepcji. Kiedy sieci proszone są o wygenerowanie bodźców podobnych do danego sygnału wejściowego, często wytwarzają nierozpoznawalne lub zniekształcone obrazy i dźwięki.
Sugeruje to, że sieci neuronowe kultywują swoje własne, odrębne „stałe”, które wyraźnie różnią się od ludzkich wzorców percepcyjnych. Badanie dostarczyło wiedzy na temat oceny modeli naśladujących ludzką percepcję zmysłową.
Kluczowe fakty:
- Głębokie sieci neuronowe, generując bodźce podobne do danego sygnału wejściowego, często wytwarzają obrazy lub dźwięki, które w niczym nie przypominają celu.
- Wydaje się, że modele wypracowują unikalne stałe, różniące się od ludzkich systemów percepcyjnych, dzięki którym postrzegają bodźce inaczej niż ludzie.
- Stosowanie treningu konkurencyjnego może sprawić, że bodźce generowane przez model będą bardziej rozpoznawalne dla ludzi, nawet jeśli nie będą identyczne z oryginalnymi danymi wejściowymi.
źródło: Instytut Technologii w Massachusetts
Ludzkie systemy sensoryczne bardzo dobrze rozpoznają rzeczy, które widzimy lub słowa, które słyszymy, nawet jeśli przedmiot jest odwrócony do góry nogami lub słowo jest wymawiane dźwiękiem, którego nigdy wcześniej nie słyszeliśmy.
Można wytrenować modele komputerowe zwane głębokimi sieciami neuronowymi, aby robiły to samo, poprawnie identyfikując wizerunek psa niezależnie od koloru jego sierści lub identyfikując słowo niezależnie od tonu głosu mówiącego. Jednak nowe badanie przeprowadzone przez neuronaukowców z MIT wykazało, że modele te często reagują w ten sam sposób na obrazy lub słowa, które różnią się od obiektu docelowego.
Kiedy te sieci neuronowe wykorzystano do wygenerowania obrazu lub słowa, które reagowało w taki sam sposób, jak konkretny naturalny sygnał wejściowy, np. zdjęcie niedźwiedzia, większość z nich generowała obrazy lub dźwięki, których ludzcy obserwatorzy nie byli w stanie rozpoznać. Sugeruje to, że modele te budują własne „niezmienniki”, co oznacza, że reagują w ten sam sposób na bodźce o bardzo różnych cechach.
Odkrycia oferują naukowcom nowy sposób oceny, jak dobrze te modele naśladują organizację ludzkiej percepcji zmysłowej, mówi Josh McDermott, profesor nadzwyczajny mózgu i nauk kognitywnych w MIT oraz członek McGovern Institute for Brain Research i Centrum Mózgu MIT . Umysły i maszyny.
„Ten artykuł pokazuje, że można wykorzystać te modele do wyodrębnienia nieprawidłowych sygnałów, które ostatecznie prowadzą do diagnozy reprezentacji w modelu” – mówi McDermott, główny autor badania. „Test ten powinien stać się częścią pakietu testów, których używamy jako pola do oceny modeli”.
Doktor Jenelle Feather ’22, obecnie pracownik naukowy w Centrum Neuronauki Obliczeniowej Instytutu Flatiron, jest główną autorką artykułu o otwartym dostępie, który ukazuje się dzisiaj w Normalna neuronauka. Autorami artykułu są także Guillaume Leclerc, absolwent MIT i Alexandre Madry, profesor Cadence na kierunku Design Systems for Computing na MIT.
Różne spostrzeżenia
W ostatnich latach badacze wyszkolili głębokie sieci neuronowe, które potrafią analizować miliony danych wejściowych (dźwięków lub obrazów) i uczyć się wspólnych cech, które pozwalają im klasyfikować docelowe słowo lub obiekt z taką samą dokładnością jak ludzie. Modele te są obecnie uważane za wiodące modele biologicznych układów sensorycznych.
Uważa się, że gdy ludzki system sensoryczny dokonuje tego rodzaju kategoryzacji, uczy się ignorować cechy niezwiązane z podstawową tożsamością obiektu, takie jak ilość padającego na niego światła czy kąt, pod jakim jest oglądany. Nazywa się to niezmiennością, co oznacza, że obiekty są postrzegane jako takie same, nawet jeśli wykazują różnice w mniej ważnych cechach.
„Klasycznie myśleliśmy o systemach sensorycznych w ten sposób, że budują one niezmienniki dla wszystkich źródeł zmienności, jakie mogą mieć różne przykłady tej samej rzeczy” – mówi Feather. „Organizm musi dostrzec, że są to te same rzeczy, mimo że pojawiają się jako zupełnie różne sygnały zmysłowe”.
Naukowcy zastanawiali się, czy głębokie sieci neuronowe przeszkolone do wykonywania zadań klasyfikacyjnych mogą ewoluować podobne niezmienniki. Aby spróbować odpowiedzieć na to pytanie, wykorzystali te modele do wygenerowania bodźców, które wywołały ten sam typ reakcji w modelu, co przykładowy bodziec, który badacze dostarczyli modelowi.
Nazywają te bodźce „typowymi miarami”, przywołując koncepcję z klasycznych badań nad percepcją, w których bodźce nie do odróżnienia od systemu można wykorzystać do zdiagnozowania jego stałych. Koncepcja analogii została pierwotnie opracowana w badaniu ludzkiej percepcji w celu opisania kolorów, które wydają się identyczne, mimo że składają się z różnych długości fal światła.
Ku swemu zdziwieniu badacze odkryli, że większość powstałych w ten sposób obrazów i dźwięków nie przypominała przykładów pierwotnie dostarczonych przez modele. Większość obrazów była mieszaniną losowo wyglądających pikseli, a dźwięki przypominały niezrozumiały szum. Kiedy badacze pokazali obrazy ludzkim obserwatorom, w większości przypadków ludzie nie zaklasyfikowali obrazów syntetyzowanych przez modele do tej samej kategorii, co oryginalny przykład docelowy.
„Właściwie są całkowicie nierozpoznawalne dla ludzi. Nie wyglądają ani nie brzmią naturalnie i nie mają możliwych do zinterpretowania cech, które każdy mógłby wykorzystać do sklasyfikowania obiektu lub słowa” – mówi Feather.
Wyniki sugerują, że modele w jakiś sposób wyewoluowały swoje własne stałe, różniące się od tych występujących w ludzkich systemach poznawczych. Powoduje to, że modele postrzegają pary bodźców jako takie same, mimo że znacznie różnią się od ludzi.
Stałe orzecznicze
Naukowcy odkryli ten sam efekt w przypadku wielu różnych paradygmatów widzenia i słuchu. Wydaje się jednak, że każdy z tych modeli wypracowuje swoje własne, unikalne stałe. Kiedy mierniki z jednego modelu porównano z innym modelem, wskaźniki z drugiego modelu nie były tak rozpoznawalne, jak dla ludzkich obserwatorów.
„Główny wniosek z tego jest taki, że modele te wydają się mieć tak zwane charakterystyczne niezmienniki” – mówi McDermott. „Nauczyli się być niezmiennikami w stosunku do tych konkretnych wymiarów pola bodźcowego, które jest specyficzne dla konkretnego modelu, więc inne modele nie mają tych samych niezmienników”.
Naukowcy odkryli również, że mogliby pobudzić wskaźniki modelu do większej rozpoznawalności przez ludzi, stosując podejście zwane szkoleniem kontradyktoryjnym. Podejście to zostało pierwotnie opracowane w celu zwalczania innego ograniczenia modeli rozpoznawania obiektów, polegającego na tym, że wprowadzenie małych, prawie niezauważalnych zmian w obrazie może spowodować nieprawidłowe rozpoznanie go przez model.
Naukowcy odkryli, że trening wyczynowy, który obejmował włączenie niektórych z tych nieco zmodyfikowanych obrazów do danych treningowych, pozwolił stworzyć modele, których wskaźniki były lepiej rozpoznawalne dla ludzi, chociaż nadal nie były tak rozpoznawalne jak oryginalne bodźce. Naukowcy twierdzą, że ta poprawa wydaje się niezależna od wpływu treningu na zdolność modeli do przeciwstawiania się wrogim atakom.
„Ten rodzaj treningu ma duży wpływ, ale tak naprawdę nie wiemy, dlaczego taki efekt” – mówi Feather. „To obszar przyszłych badań”.
Naukowcy twierdzą, że analiza wskaźników generowanych przez modele obliczeniowe może być użytecznym narzędziem pomagającym ocenić, w jakim stopniu model obliczeniowy naśladuje podstawową organizację ludzkich systemów percepcyjnych.
„To test behawioralny, który można przeprowadzić na konkretnym modelu, aby sprawdzić, czy stałe są wspólne dla modelu i ludzkich obserwatorów” – mówi Feather. „Można go również wykorzystać do oceny, jak szczegółowe są stałe w danym modelu, co może pomóc w ujawnieniu potencjalnych sposobów ulepszenia naszych modeli w przyszłości”.
Finansowanie: Badania sfinansowały National Science Foundation, National Institutes of Health, Department of Energy Graduate Fellowship in Computational Science oraz Friends of the McGovern Institute Fellowship.
Informacje o sztucznej inteligencji i badaniach nad poznaniem
autor: Sarah McDonnell
źródło: Instytut Technologii w Massachusetts
Komunikacja: Sarah McDonnell – Instytut Technologii Massachusetts
zdjęcie: Zdjęcie przypisane Neuroscience News
Oryginalne wyszukiwanie: Otwarty dostęp.
„Typowe narzędzia pomiarowe ujawniają różne niezmienniki pomiędzy biologicznymi i sztucznymi sieciami neuronowymi„Przez Josha McDermotta i in. Normalna neuronauka
podsumowanie
Typowe narzędzia pomiarowe ujawniają różne niezmienniki pomiędzy biologicznymi i sztucznymi sieciami neuronowymi
Często proponuje się modele głębokich sieci neuronowych układów sensorycznych w celu uczenia się transformacji reprezentacyjnych z niezmiennościami, takimi jak te w mózgu. Aby odkryć te niezmienniki, stworzyliśmy „metryki modelu”, czyli bodźce, których aktywacje w fazie modelu odpowiadają aktywacjom bodźca naturalnego.
Instrumenty do tworzenia nowoczesnych, nadzorowanych i nienadzorowanych modeli sieci neuronowych dotyczących wzroku i słuchu często były całkowicie nierozpoznawalne dla ludzi, gdy były generowane na późnych etapach modelu, co sugeruje różnice między niezmiennikami modelu i człowieka. Ukierunkowane zmiany modelu poprawiły rozpoznawalność narzędzi pomiarowych modelu przez człowieka, ale nie wyeliminowały ogólnej rozbieżności między modelem ludzkim.
Rozpoznawalność metryk modelu przez człowieka jest dobrze przewidziana na podstawie ich rozpoznawalności przez inne modele, co sugeruje, że modele zawierają oprócz tych wymaganych przez zadanie odrębne niezmienniki.
Rozpoznawalność metamerów jest oddzielona zarówno od tradycyjnych kryteriów opartych na mózgu, jak i kryteriów słabo kontradyktoryjnych, co ujawnia wyraźny tryb awarii istniejących modeli sensorycznych i zapewnia uzupełniające kryterium oceny modelu.