Według badania sfinansowanego przez Apple, ludzie mogą z łatwością przechytrzyć sztuczną inteligencję
Na początku tego miesiąca zespół sześciu naukowców zajmujących się sztuczną inteligencją, wspierany przez Apple, opublikował badanie, w którym przedstawił GSM-Symbolic, nowy benchmark sztucznej inteligencji, który "umożliwia bardziej kontrolowane oceny, zapewniając kluczowe spostrzeżenia i bardziej wiarygodne wskaźniki do pomiaru zdolności rozumowania modeli" Niestety, wygląda na to, że LLM są nadal poważnie ograniczone i brakuje im najbardziej podstawowych możliwości rozumowania, ujawniły wstępne testy przeprowadzone przy użyciu GSM-Symbolic z silnikami sztucznej inteligencji ikon branżowych, takich jak Meta i OpenAI.
Problem z istniejącymi modelami, jak wykazały wspomniane testy, polega na braku niezawodności LLM, gdy są one poddawane podobnym zapytaniom. W badaniu stwierdzono, że niewielkie zmiany w sformułowaniu, które nie zmieniłyby znaczenia zapytania dla człowieka, często prowadzą do różnych odpowiedzi od botów AI. Badanie nie wskazało żadnego modelu, który wyróżniałby się na tle innych.
"W szczególności, wydajność wszystkich modeli spada [nawet], gdy tylko wartości liczbowe w pytaniu są zmieniane w benchmarku GSM-Symbolic"
podsumowano badania, odkrywając również, że
"kruchość rozumowania matematycznego w tych modelach [pokazuje], że ich wydajność znacznie się pogarsza wraz ze wzrostem liczby klauzul w pytaniu"
Badanie, które ma 22 strony, można znaleźć pod adresem tutaj (plik PDF). Ostatnie dwie strony zawierają problemy, w których na końcu dodano pewne nieistotne informacje, które nie powinny zmienić ostatecznego wyniku dla człowieka rozwiązującego zadanie. Jednak zastosowane modele sztucznej inteligencji wzięły pod uwagę również te części, dostarczając błędnych odpowiedzi.
Podsumowując, modele sztucznej inteligencji wciąż nie są w stanie wyjść poza rozpoznawanie wzorców i wciąż brakuje im możliwości generalizowania problemów. W tym roku zaprezentowano kilka modeli LLM, w tym Meta AI Llama 3.1, Nvidia Nemotron-4, Anthropic Claude 3japoński Fugaku-LLM (największy model kiedykolwiek wytrenowany wyłącznie na mocy procesora) oraz Novaprzez Rubik's AI, rodzinę LLM, która została zaprezentowana na początku tego miesiąca.
Jutro nakładem wydawnictwa O'Reilly ukaże się pierwsze wydanie książki Hands-On Large Language Models: Language Understanding and Generation, autorstwa Jaya Alammara i Maartena Grootendorsta. Jego cena wynosi 48,99 USD (Kindle) lub 59,13 USD (wersja papierowa).