JPL, Spotkanie PDF.
Podczas gdy NASA Laboratorium Napędów Odrzutowych JPL słynie z jazdy Łaziki na Marsie i wysyłaj statki kosmiczne do badań Planety w Układzie SłonecznymNajnowszy projekt JPL jest jeszcze bardziej namacalny: kompilacja największego na świecie publicznie dostępnego archiwum plików PDF do celów badań nad bezpieczeństwem.
Pliki PDF to najpopularniejsza forma dokumentów cyfrowych na świecie. I chociaż mogą wyglądać jak skany dokumentów papierowych, w rzeczywistości są zbiorami tekstu, obrazów, filmów i aktywnego tekstu, które nie są tak bezpieczne, jak powinny i są rozproszone po całym miejscu. Aby rozwiązać ten problem, firma JPL nawiązała współpracę z organizacją non-profit PDF Association w celu opracowania nowego archiwum plików, które pomoże naukowcom analizować potencjalne zagrożenia w obszernej bibliotece rzeczywistych plików PDF.
Powiązany: Amerykańskie Siły Kosmiczne chcą, aby prywatne firmy pomagały im stawić czoła „pojawiającym się zagrożeniom” w kosmosie
Projekt obejmuje kompilację prawie 8 milionów plików PDF, w sumie ponad 8 terabajtów danych z różnych źródeł internetowych. Wysiłek ten jest częścią inicjatywy Agencji Zaawansowanych Projektów Badawczych Obrony (DARPA) o nazwie SafeDocsktórego celem jest zabezpieczenie dokumentów cyfrowych przed złośliwym kodem i innymi problemami związanymi z bezpieczeństwem.
„Pliki PDF są używane wszędzie i są ważne w przypadku umów, dokumentów prawnych, projektów inżynieryjnych 3D i wielu innych celów” — powiedział analityk danych JPL Tim Allison. oświadczenie. „Niestety są one złożone i można je zhakować, aby ukryć złośliwy kod lub złośliwie przedstawić różne informacje różnym użytkownikom”. Aby sprostać tym i innym wyzwaniom związanym z plikami PDF, należy pobrać z Internetu dużą próbkę rzeczywistych plików PDF w celu utworzenia udostępnionego, ogólnodostępnego zasobu dla ekspertów ds. oprogramowania. „
Wykorzystując ogólnodostępne publiczne repozytorium informacji indeksowania sieci Crawl jako punkt wyjścia, badacze z JPL zidentyfikowali pliki PDF, które można dodać do kolekcji, w tym te niekompletne z powodu limitu pobierania 1 MB na pobrany plik w programie Common Crawl. Następnie JPL uzyskuje bezpośredni dostęp do adresów URL plików PDF, aby pobrać kompletne dokumenty, zapewniając w pełni reprezentatywne archiwum typów plików PDF dostępnych w Internecie.
Udostępniając kolekcję publicznie, JPL ma nadzieję, że naukowcy będą mogli wykorzystywać i analizować pliki PDF w celu określenia lepszych sposobów zabezpieczenia informacji zawartych w tych dokumentach.