Według badania sfinansowanego przez Apple, ludzie mogą z łatwością przechytrzyć sztuczną inteligencję

Ludzie kontra AI (Źródło obrazu: Wygenerowano przy użyciu DALL-E 3)

Choć silniki sztucznej inteligencji, takie jak Meta i OpenAI, które wykorzystują duże modele językowe, często zapewniają imponujące wyniki, wciąż brakuje im podstawowych możliwości rozumowania. Grupa wspierana przez Apple zaproponowała nowy test porównawczy, który już ujawnił, że nawet najmniejsze zmiany w zapytaniu mogą prowadzić do zupełnie innych odpowiedzi.

Codrut Nistor (tłumaczenie Ninh Duy), Opublikowany 14/10/2024 🇺🇸 🇩🇪 ...

AI Science Fail

Na początku tego miesiąca zespół sześciu naukowców zajmujących się sztuczną inteligencją, wspierany przez Apple, opublikował badanie, w którym przedstawił GSM-Symbolic, nowy benchmark sztucznej inteligencji, który "umożliwia bardziej kontrolowane oceny, zapewniając kluczowe spostrzeżenia i bardziej wiarygodne wskaźniki do pomiaru zdolności rozumowania modeli" Niestety, wygląda na to, że LLM są nadal poważnie ograniczone i brakuje im najbardziej podstawowych możliwości rozumowania, ujawniły wstępne testy przeprowadzone przy użyciu GSM-Symbolic z silnikami sztucznej inteligencji ikon branżowych, takich jak Meta i OpenAI.

Problem z istniejącymi modelami, jak wykazały wspomniane testy, polega na braku niezawodności LLM, gdy są one poddawane podobnym zapytaniom. W badaniu stwierdzono, że niewielkie zmiany w sformułowaniu, które nie zmieniłyby znaczenia zapytania dla człowieka, często prowadzą do różnych odpowiedzi od botów AI. Badanie nie wskazało żadnego modelu, który wyróżniałby się na tle innych.

"W szczególności, wydajność wszystkich modeli spada [nawet], gdy tylko wartości liczbowe w pytaniu są zmieniane w benchmarku GSM-Symbolic"

podsumowano badania, odkrywając również, że

"kruchość rozumowania matematycznego w tych modelach [pokazuje], że ich wydajność znacznie się pogarsza wraz ze wzrostem liczby klauzul w pytaniu"

Badanie, które ma 22 strony, można znaleźć pod adresem tutaj (plik PDF). Ostatnie dwie strony zawierają problemy, w których na końcu dodano pewne nieistotne informacje, które nie powinny zmienić ostatecznego wyniku dla człowieka rozwiązującego zadanie. Jednak zastosowane modele sztucznej inteligencji wzięły pod uwagę również te części, dostarczając błędnych odpowiedzi.

Podsumowując, modele sztucznej inteligencji wciąż nie są w stanie wyjść poza rozpoznawanie wzorców i wciąż brakuje im możliwości generalizowania problemów. W tym roku zaprezentowano kilka modeli LLM, w tym Meta AI Llama 3.1, Nvidia Nemotron-4, Anthropic Claude 3japoński Fugaku-LLM (największy model kiedykolwiek wytrenowany wyłącznie na mocy procesora) oraz Novaprzez Rubik's AI, rodzinę LLM, która została zaprezentowana na początku tego miesiąca.

Jutro nakładem wydawnictwa O'Reilly ukaże się pierwsze wydanie książki Hands-On Large Language Models: Language Understanding and Generation, autorstwa Jaya Alammara i Maartena Grootendorsta. Jego cena wynosi 48,99 USD (Kindle) lub 59,13 USD (wersja papierowa).

Źródło(a)

AppleInsider

Powiązane artykuły

Dzięki Studio Drive wreszcie możliwe jest rozszerzenie pamięci masowej w komputerze Mac Studio. (Źródło obrazu: Mediamodifier - Unsplash)

Apple Ulepszenia pamięci masowej Mac Studio są już dostępne w ramach kampanii Studio Drive na Kickstarterze 16/10/2024

teleobiektyw iPhone'a 16 Pro Max został ponownie przetestowany przez DxOMark (źródło obrazu: Apple)

iPhone 16 Pro Max wypada gorzej od chińskich flagowców Android w nowym teście aparatu DxOMark 15/10/2024

Appleoczekuje się, że kolejny zestaw słuchawkowy VR nadal będzie pozbawiony niesławnej funkcji EyeSight w Vision Pro. (Źródło zdjęcia: Roméo A)

Apple analityk omawia stan planów dotyczących zestawu słuchawkowego Apple Vision VR z inteligentnymi okularami i słuchawkami AirPods z kamerami 15/10/2024

OnePlus 13 będzie najwyraźniej wyposażony w niestandardowy flagowy SoC Snapdragon (źródło obrazu: Qualcomm)

Niestandardowy układ Snapdragon w OnePlus 13 pozornie bije Apple A18 Pro pod względem wydajności 14/10/2024

Apple Samochód już nie istnieje, ponieważ Tesla wprowadza Robotaxi (źródło zdjęcia: Tesla)

Apple Pozwolenia na samochody zostały anulowane na krótko przed prezentacją autonomicznego Robotaxi Tesli 13/10/2024

Apple ogłasza konkurs Swift Student Challenge 2025 dla programistów-studentów, w którym mogą oni zaprezentować pomysłowość swoich aplikacji i wygrać nagrody Apple. (Źródło zdjęcia: Apple)

Apple ogłasza Swift Student Challenge 2025 dla studentów programistów, którzy mogą zaprezentować swoją pomysłowość na aplikację i wygrać nagrody Apple 10/10/2024

Applenajnowsze iPady "Pro" sprzedają się w mniejszej liczbie egzemplarzy niż oczekiwano. (Źródło obrazu: Apple)

Analityk przedstawia raport na temat popularności nowego iPada Pro Apple 10/10/2024

MacBook Pro miał mniej nabywców w trzecim kwartale 2024 roku niż w roku poprzednim. (Źródło obrazu: Notebookcheck)

Rynek komputerów PC: Apple jest największym przegranym w trzecim kwartale, podczas gdy Asus i Lenovo zwiększają swój udział w rynku 09/10/2024

Pininfarina pomogła zaprojektować elektryczne SUV-y Model B/C (źródło zdjęcia: Foxconn/X)

Plotki Apple Producent samochodów Foxconn ujawnia amerykański Model C, który ma zmierzyć się z Teslą Model Y Juniper 09/10/2024

Oferta MacBooka Pro M4 została najwyraźniej usunięta z powodu naruszenia zasad witryny zakupowej (źródło obrazu: Apple - edytowane)

Rzekomy MacBook Pro z 2024 roku z Apple M4 został na krótko wystawiony na rosyjskim rynku za ~7 500 USD 09/10/2024

Steam Deck zapewnia łatwy dostęp do...

Prominentny przeciek udostępnia zwi...

Editor of the original article: Codrut Nistor - Senior Tech Writer - 6676 articles published on Notebookcheck since 2013

contact me via: @online_digi, online.digital.craft, LinkedIn

Translator: Ninh Ngoc Duy - Editorial Assistant - 522633 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 10 > Według badania sfinansowanego przez Apple, ludzie mogą z łatwością przechytrzyć sztuczną inteligencję

Codrut Nistor, 2024-10-14 (Update: 2024-10-14)