Firma xAI Elona Muska wprowadziła na rynek rodzinę wiodących modeli językowych Grok 3, które generalnie przewyższają inne SI w standardowych testach porównawczych SI.
Modele Grok 3 zostały wytrenowane na firmowym klastrze superkomputerów Colossus, który wykorzystuje 100 000 procesorów graficznych Nvidia Hopper Tensor Core. Wydano parę standardowych i mini modeli bez rozumowania (Grok 3 beta i Grok 3 mini beta) wraz z parą modeli rozumowania (Grok 3 beta (Think) i Grok 3 mini beta (Think)).
Modele bez rozumowania generalnie przewyższają wcześniejsze topowe AI, takie jak OpenAI GPT-4o i DeepSeek-V3. Jednym z powodów jest to, że mają one okno kontekstowe z milionem tokenów, co pozwala sztucznej inteligencji na korzystanie z bardzo dużych ilości tekstu. Poprawia to zdolność modeli do syntezy poprawnej odpowiedzi z różnych źródeł. To powiedziawszy, modele Grok 3 beta nadal odpowiadają na pytania dotyczące wyszukiwania faktów z dokładnością poniżej 50% (benchmark SimpleQA), więc ludzie nadal będą mieli pracę jutro.
Modele rozumowania krok po kroku analizują złożone podpowiedzi, pozwalając użytkownikowi zobaczyć proces myślowy sztucznej inteligencji. Pozwala to sztucznej inteligencji na rozwiązywanie problemów tak, jak robiłby to ekspert, poprzez rozwiązywanie mniejszych części problemu i łączenie wyników w celu uzyskania właściwej odpowiedzi. Wybranie agenta DeepSearch lub opcji wyszukiwania sprawi, że Grok 3 będzie przeszukiwać szeroko i głęboko w Internecie i korzystać z interpreterów kodu przed wygenerowaniem raportów podsumowujących jego ustalenia. Modele Grok 3 (Think) generalnie najlepiej radzą sobie z rozwiązywaniem problemów matematycznych, odpowiadaniem na pytania wielokrotnego wyboru na poziomie absolwenta i wykonywaniem zadań związanych z kodowaniem w porównaniu z innymi sztucznymi inteligencjami.
xAI spodziewa się kontynuować dostrajanie Grok 3 w celu poprawy wydajności w nadchodzących miesiącach na klastrze superkomputerów o mocy 200 000 GPU. Grok 3 jest teraz dostępny dla wszystkich użytkowników na X i Grok.com. Bezpłatni użytkownicy mogą napotkać limity użytkowania, podczas gdy płatni użytkownicy będą mieli dostęp do zaawansowanych funkcji.