Ostatni post na Blog Google o bezpieczeństwie Szczegółowe informacje o nowej aktualizacji filtrów spamu w Gmailu, którą Google nazywa „jednym z największych ulepszeń zabezpieczeń w ostatnich latach”. Aktualizacja ma formę nowego systemu klasyfikacji tekstu o nazwie RETVec (Efficient and Elastic Text Vector). Google twierdzi, że może to pomóc w zrozumieniu „wrogiej manipulacji tekstem” – e-maili wypełnionych znakami specjalnymi, emoji, literówkami i innymi niechcianymi znakami, które wcześniej były czytelne dla ludzi, ale nie mogły być łatwo zrozumiane przez maszyny. Wcześniej wiadomości spamowe wypełnione znakami specjalnymi z łatwością przenikały przez zabezpieczenia Gmaila.
Jeśli chcesz zobaczyć przykład tego, jak wygląda „wroga manipulacja tekstem”, poniższa wiadomość pochodzi z Twojego folderu ze spamem. Z mojego osobistego doświadczenia związanego z Gmailem i tego typu e-mailami wynika, że w pierwszej połowie roku był to duży problem, ponieważ takie e-maile regularnie przychodziły do mojej skrzynki odbiorczej. Wydaje się, że ta techniczna aktualizacja RETVec działa, ponieważ tego typu e-maile nie stanowiły dla mnie żadnego problemu w ciągu ostatnich kilku miesięcy.
Sortowanie takich e-maili było bardzo trudne i chociaż każdy filtr spamu mógłby prawdopodobnie przeskanować e-mail z informacją: „Gratulacje! Doładowanie Twojego konta jackpot o wartości 1000 USD” nie jest tak naprawdę treścią tego e-maila. Duża część liter tutaj to „Homofony„Zanurzając się w nieskończone głębiny standardu Unicode, możesz znaleźć mało znane znaki, które wyglądają, jakby były częścią zwykłego alfabetu łacińskiego, ale w rzeczywistości nim nie są.
Na przykład temat „𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭” wygląda dziwnie odważnie nie dlatego, że ma odważny wygląd, ale dlatego, że używa glifów Unicode, takich jak „Odważna matematyka wielkich liter c„. To symbol matematyczny, który w oczach ludzi wygląda jak litera „C”, ale bot filtrujący spam postrzega go wyłącznie jako symbol matematyczny i nie rozumie jego znaczenia w języku angielskim. Im bliżej przyjrzysz się takiej wiadomości e-mail, tym gorzej: Zawiera „ „C0NGTRATULATIONS” na zero zastępuje jeden ze znaków „O”, podkreślone znaki w „Jᴀ̲ᴄ̲ᴋ̲pot” są tak dziwne, że nawet nie pojawiają się w wyszukiwaniach Unicode, a wiele spacji jest zamienionych w przypadku kropek lub podkreśleń. W rezultacie filtr spamu szuka tego Chaos Z e-maila i w zasadzie się poddaje. (Nie rozumiem, dlaczego nieprzeczytane e-maile są ustawione na „Skrzynka odbiorcza” zamiast „Spam”, ale nie ponoszę za to odpowiedzialności.)
Google twierdzi, że RETVec jest tutaj, aby uratować sytuację: „RETVec jest przeszkolony tak, aby był odporny na manipulacje na poziomie znaków, w tym wstawienia, usunięcia, literówki, znaki homonimiczne, podstawienie LEET i nie tylko.” Model RETVec jest szkolony na nowym znaku koder, który „może skutecznie szyfrować wszystkie znaki i słowa”. UTF-8. W ten sposób RETVec działa od razu w ponad 100 językach, nie wymagając tabeli przeglądowej ani stałego rozmiaru słownictwa.
Google twierdzi, że wydajność ma tutaj ogromne znaczenie. Alternatywne podejścia, które wykorzystują „stały rozmiar słownictwa” lub „tabelę przeglądową” dla homomorfów, sprawiły, że ich operacja wymagała dużych zasobów. Wyobraź sobie listę wszystkich możliwych błędów ortograficznych i błędnych pisowni „Gratulacje”, które zastępują jedną lub więcej liter cyframi, symbolami matematycznymi, cyrylicą, hebrajskim lub emoji, a będziesz miał prawie nieskończoną listę. Google twierdzi, że RETVec ma tylko 200 000 „zamiast milionów parametrów”, więc chociaż chmura filtrująca spam Google jest prawdopodobnie wystarczająco duża, aby uruchomić wszystko, jest na tyle mała, że może działać nawet na komputerze lokalnym. Ritvik Otwarte źródłoGoogle ma nadzieję uwolnić świat od fałszywych ataków, aby pewnego dnia nawet Twoja lokalna sekcja komentarzy mogła je wywołać.
Wydaje się, że RETVec działa podobnie do sposobu, w jaki czytają ludzie: jest to model uczenia maszynowego TensorFlow, który wykorzystuje wizualne „podobieństwo” do określenia znaczenia słów, a nie rzeczywistej zawartości znaków. Google Pokaż podobieństwo Wykorzystuje tę samą technologię do rozpoznawania wizerunków kotów, więc przekształcenie go w najfajniejszy na świecie system optycznego rozpoznawania znaków wydaje się wykonalne. Najwyraźniej takie podejście doprowadziło do znacznych ulepszeń, jak stwierdził Google: „Zastąpienie poprzedniego wektora tekstu dla klasyfikatora spamu Gmaila przez RETVec pozwoliło nam poprawić współczynnik wykrywania spamu w stosunku do wartości bazowej o 38% i zmniejszyć odsetek fałszywych alarmów o 19,4%. Ponadto zastosowanie RETVec zmniejszyło wykorzystanie TPU w modelu o 83%, co czyni wdrożenie RETVec jednym z największych ulepszeń w dziedzinie obronności w ostatnich latach.
Google twierdzi, że testował RETVec wewnętrznie „przez ostatni rok” i już wdraża go na Twoim koncie Gmail.