Czy można ufać testom, które mają gwarantować bezpieczeństwo sztucznej inteligencji? Brytyjski Instytut Bezpieczeństwa AI wraz z naukowcami z Oksfordu, Stanforda i Berkeley sprawdzili ponad 440 powszechnie stosowanych benchmarków. I — niestety — są one dziurawe niczym pokiereszowane sito.
Benchmarki to fundament, na którym stoją niemal wszystkie twierdzenia o „przełomach” w AI. To na ich podstawie firmy ogłaszają kolejne skoki jakości w rozumowaniu, kodowaniu oraz bezpieczeństwie modeli. Problem jest zasadniczo: jak zauważył główny autor raportu, Andrew Bean z Oxford Internet Institute, większość tych testów jest nieprecyzyjna, nie daje się porównywać między sobą w prosty sposób i często jest błędnie interpretowana.
I tak oto, modele, które mają być „lepsze” lub „bezpieczniejsze”, mogą jedynie sprawiać wrażenie, że takie są. Różnice między generacjami mogą wynikać nie tyle z faktycznych postępów, lecz z odmiennych metod oceniania. To jak porównywanie biegacza, który przebiegł 100 metrów po stadionie, z tym, który zrobił to po błocie — wynik niby w liczbach jest podobny, ale semantycznie jest już bez sensu.
Sztuczna pewność
Badacze odkryli, że jedynie 16% analizowanych benchmarków stosuje podstawowe narzędzia statystyczne, by oszacować, jak bardzo ich wyniki są wiarygodne. Powiem to z pozycji człowieka, który miał przez długi czas do czynienia ze statystyką: to niesamowicie zła sytuacja dla nas. W pozostałych przypadkach testy opierają się na surowych punktacjach — bez uwzględnienia marginesu błędu czy losowości wyników. To jakieś kuriozum.
Jeszcze gorzej wygląda kwestia definicji. W testach badających np. „nieszkodliwość” danego modelu, owo pojęcie często nie miało jednoznacznego znaczenia w konkretnym opracowaniu. Każdy zespół rozumiał to inaczej: od braku tendencji do obrażania użytkownika, aż po niechęć wywoływania szkód społecznych. Jeden model mógł wypaść świetnie w jednym teście i fatalnie w innym, bo nie mamy jasnej standaryzacji kluczowych pojęć. Takowe sytuacje mogą występować nawet przy okazji identycznych pytań.
Gdy testy zawiodły
Kilka dni przed publikacją raportu Google musiało wycofać z platformy AI Studio modele Gemma. Jeden z nich „zmyślił” (z powodu typowych dla LLM-ów halucynacji) historię o rzekomym romansie amerykańskiej senator z funkcjonariuszem policji, dołączając nawet fałszywe linki do nieistniejących artykułów prasowych. Model od Google, technicznie rzecz biorąc, zniesławił polityczkę, preparując na to dowody. Przecież to kompletna katastrofa.
Google tłumaczyło, że Gemma była narzędziem badawczym, a nie konsumenckim, i została usunięta po tym, jak entuzjaści (którzy często „psują” rzeczy) zaczęli z niej korzystać. Firma przyznała jednak, że halucynacje i tzw. sykofancja (czyli mówienie użytkownikowi tego, co chce usłyszeć), to wyzwanie dla całej branży i niestety, ale trudno z tym walczyć. LLM-y mają ku temu silne tendencje z powodu tego, jak są zbudowane.
Od fikcji do tragedii
Niektóre skutki są znacznie poważniejsze niż wizerunkowe wpadki. Start-up Character.ai musiał ostatnio zakazać nastolatkom prowadzenia otwartych rozmów z botami po serii dramatycznych zdarzeń. W jednym z nich 14-latek z Florydy odebrał sobie życie po tym, jak chatbot – według relacji matki – manipulował jego emocjami i zachęcał do autodestrukcyjnych zachowań.
To — rzecz jasna — ekstremalny przypadek, ale pokazuje, że brak rzetelnych metod oceny i nadzoru nad modelami AI nie jest problemem li tylko jajogłowych w ośrodkach badawczych. Gdy algorytmy zaczynają wpływać na emocje, decyzje i zdrowie psychiczne użytkowników, mamy do czynienia z poważnym wyzwaniem.
Brak regulacji i fałszywe poczucie bezpieczeństwa
Wobec braku jednolitych regulacji w USA i Wielkiej Brytanii benchmarki stały się de facto substytutem, markowaniem nadzoru. Przecież mają odpowiadać na pytania, czy model jest bezpieczny, zgodny z wartościami społecznymi i spełnia obietnice producenta. Ale jeśli owe testy są wadliwe, to wszyscy mamy problem.
Czytaj również: Twórcy chatGPT szykują rewolucję, która będzie spełniać marzenia
Autorzy raportu wskazują, że giganci — owszem — posiadają własne, wewnętrzne benchmarki, które nie są publicznie dostępne. Ale, niestety, naukowcy, regulatorzy i społeczeństwo nie mają możliwości niezależnej weryfikacji ich PR-owych twierdzeń o bezpieczeństwie.
Co dalej?
Badacze apelują o stworzenie wspólnych standardów testowania modeli sztucznej inteligencji — zarówno otwartych, jak i tych korporacyjnych. Ich zdaniem potrzebna jest nie tylko lepsza metodologia (a także i metodyka), ale też jednolite, uzgodnione definicje podstawowych pojęć: czym jest bezpieczeństwo, neutralność czy etyka w kontekście maszyn uczących się samodzielnie. Bez tego serio będziemy zgubieni, bo prędzej czy później — wszyscy będziemy na łasce (i niełasce) AI.

