Notebookcheck Logo

xAI wydaje Grok-2 i Grok-2 mini beta AI LLM na ????, a interfejs API dla przedsiębiorstw pojawi się jeszcze w tym miesiącu

xAI wydaje Grok-2 i Grok-2 mini beta AI LLM na X z interfejsem API dla przedsiębiorstw, który pojawi się jeszcze w tym miesiącu. (Źródło obrazu: xAI)
xAI wydaje Grok-2 i Grok-2 mini beta AI LLM na X z interfejsem API dla przedsiębiorstw, który pojawi się jeszcze w tym miesiącu. (Źródło obrazu: xAI)
firma xAI udostępniła modele AI LLM Grok-2 i Grok-2 mini beta na platformie X, a interfejs API dla przedsiębiorstw zostanie udostępniony jeszcze w tym miesiącu. Grok-2 znalazł się wśród czterech najpotężniejszych dużych modeli językowych w rankingu LMSYS i wśród sześciu najlepszych w szeregu standardowych testów porównawczych AI.
AI Software Social Media Open Source Launch

xAI wydało Grok-2 i Grok-2 mini beta AI large-language models (LLMs) na X z interfejsem API dla przedsiębiorstw, który pojawi się jeszcze w tym miesiącu. Możliwości generowania obrazów Grok-2 zostały również rozszerzone dzięki integracji FLUX.1 AI z Black Forest Labs. Druga wersja pojawiła się prawie dziewięć miesięcy po pierwszym wydaniu w listopadzie 2023 roku i jest natychmiast dostępna dla subskrybentów Premium i Premium+ X w ramach testów beta. Dostęp API do Grok-2 LLM pojawi się jeszcze w tym miesiącu.

xAI to startup skupiający się na rozwoju sztucznej inteligencji, który został założony przez Elona Muska, właściciela X (dawniej Twittera). Firma wypuściła swój pierwszy LLM w 2023 roku, który został zintegrowany z usługą X w celu zapewnienia możliwości AI. Grok-1 został zaprojektowany tak, aby nie był tak obudzony, ocenzurowany lub nudny jak konkurencyjne LLM, takie jak GPT-4o od OpenAI. Takie uprzedzenia wpływają na odpowiedzi wszystkich AI LLM wykorzystywanych obecnie w usługach chatbotów, powodując uprzedzenia rasowe a nawet absurdalne odpowiedzi. Co ważne, Grok-1 został wydany jako free 296 GB downloadi jest jednym z niewielu najbardziej wydajnych rozwiązań LLM wydanych jako oprogramowanie open-source.

W ciągu ostatniego roku nastąpił znaczący postęp w wydajności LLM. Najnowsze wersje, takie jak OpenAI GPT-4o i Anthropic Claude 3.5 Sonnetoferują rozszerzoną wiedzę, a także wyższą wydajność. Czytelnicy, którzy uwielbiają korzystać z AI, mogą nosić Okulary AI(takie jak te na Amazon) podczas planowania dnia Humanoidalne roboty AI przejmą obowiązki domowe.

Według wewnętrznych testów xAI, Grok-2 i Grok-2 mini beta zajmują wysokie pozycje wśród wszystkich LLM na całym świecie. xAI nie przedstawiło testów porównawczych najnowszej wersji Grok z najnowszymi konkurencyjnymi LLM. Niemniej jednak, Grok-2 uplasował się jako jeden z czterech najpotężniejszych LLM w rankingu chatbotów LMSYS i wśród sześciu najlepszych w szeregu standardowych testów porównawczych AI.

W szczególności, sierpniowa wersja OpenAI GPT-4o wyprzedza wczesną wersję Grok-2 w tabeli liderów, podczas gdy Anthropic Claude 3.5 Sonnet o nieznanej dacie plasuje się za Grok-2. W ośmiu standaryzowanych benchmarkach SI, starsza majowa wersja GPT-4o pokonuje Grok-2 cztery na osiem razy, podczas gdy Claude 3.5 Sonnet pokonuje Grok-2 sześć na osiem razy.

Grok-2 i Grok-2 mini beta są zintegrowane z X i mogą być używane przez konta Premium i Premium+. (Źródło obrazu: xAI)
Grok-2 i Grok-2 mini beta są zintegrowane z X i mogą być używane przez konta Premium i Premium+. (Źródło obrazu: xAI)
Grok może odpowiadać na pytania dotyczące szerokiej gamy tematów i zdjęć. (Źródło obrazu: xAI)
Grok może odpowiadać na pytania dotyczące szerokiej gamy tematów i zdjęć. (Źródło obrazu: xAI)
Grok-2 jest jednym z najlepiej działających AI LLM na świecie według LMSys Leaderboard. (Źródło obrazu: xAI)
Grok-2 jest jednym z najlepiej działających AI LLM na świecie według LMSys Leaderboard. (Źródło obrazu: xAI)
W ośmiu standardowych testach porównawczych AI, Grok-2 i Grok-2 mini plasują się wśród sześciu najlepszych AI LLM na świecie. (Źródło obrazu: xAI)
W ośmiu standardowych testach porównawczych AI, Grok-2 i Grok-2 mini plasują się wśród sześciu najlepszych AI LLM na świecie. (Źródło obrazu: xAI)
Flux.1, generatywna sztuczna inteligencja obrazu od Black Forest Labs, została zintegrowana z Grok-2 w celu tworzenia obrazów na podstawie podpowiedzi tekstowych. (Źródło obrazu: Black Forest Labs)
Flux.1, generatywna sztuczna inteligencja obrazu od Black Forest Labs, została zintegrowana z Grok-2 w celu tworzenia obrazów na podstawie podpowiedzi tekstowych. (Źródło obrazu: Black Forest Labs)

13 sierpnia 2024 r.
Grok-2 Beta Release

Grok-2 to nasz pionierski model językowy z najnowocześniejszymi możliwościami wnioskowania. To wydanie zawiera dwóch członków rodziny Grok: Grok-2 i Grok-2 mini. Oba modele są obecnie udostępniane użytkownikom Groka na platformie X.

Jesteśmy podekscytowani wydaniem wczesnego podglądu Grok-2, znaczącego kroku naprzód w stosunku do naszego poprzedniego modelu Grok-1.5, oferującego pionierskie możliwości w zakresie czatu, kodowania i wnioskowania. Jednocześnie wprowadzamy Grok-2 mini, małe, ale zdolne rodzeństwo Grok-2. Wczesna wersja Grok-2 została przetestowana na tablicy wyników LMSYS pod nazwą "sus-column-r" W momencie publikacji tego wpisu na blogu, przewyższa on zarówno Claude 3.5 Sonnet, jak i GPT-4-Turbo.

Grok-2 i Grok-2 mini są obecnie w wersji beta na X, a jeszcze w tym miesiącu udostępnimy oba modele za pośrednictwem naszego interfejsu API dla przedsiębiorstw.
Model językowy Grok-2 i możliwości czatu

Wprowadziliśmy wczesną wersję Grok-2 pod nazwą "sus-column-r" na arenę chatbotów LMSYS, popularnego konkurencyjnego testu porównawczego modeli językowych. Przewyższa on zarówno Claude, jak i GPT-4 w tabeli liderów LMSYS pod względem ogólnego wyniku Elo.

Wewnętrznie stosujemy porównywalny proces oceny naszych modeli. Nasi AI Tutorzy współpracują z naszymi modelami w różnych zadaniach, które odzwierciedlają rzeczywiste interakcje z Grok. Podczas każdej interakcji, AI Tutorom prezentowane są dwie odpowiedzi wygenerowane przez Grok. Wybierają oni lepszą odpowiedź w oparciu o konkretne kryteria określone w naszych wytycznych. Skupiliśmy się na ocenie możliwości modelu w dwóch kluczowych obszarach: podążaniu za instrukcjami i dostarczaniu dokładnych, opartych na faktach informacji. Grok-2 wykazał znaczną poprawę w zakresie rozumowania na podstawie wyszukanych treści i możliwości korzystania z narzędzi, takich jak prawidłowe identyfikowanie brakujących informacji, rozumowanie poprzez sekwencje zdarzeń i odrzucanie nieistotnych postów.
Benchmarki

Oceniliśmy modele Grok-2 pod kątem szeregu akademickich testów porównawczych, które obejmowały rozumowanie, czytanie ze zrozumieniem, matematykę, nauki ścisłe i kodowanie. Zarówno Grok-2, jak i Grok-2 mini wykazują znaczną poprawę w stosunku do naszego poprzedniego modelu Grok-1.5. Osiągają one poziomy wydajności konkurencyjne do innych modeli frontierowych w takich obszarach jak wiedza naukowa na poziomie absolwenta (GPQA), wiedza ogólna (MMLU, MMLU-Pro) i problemy matematyczne (MATH). Ponadto Grok-2 wyróżnia się w zadaniach opartych na wzroku, zapewniając najnowocześniejsze wyniki w wizualnym rozumowaniu matematycznym (MathVista) i odpowiadaniu na pytania oparte na dokumentach (DocVQA).

Benchmark Grok-1.5 Grok-2 mini‡ Grok-2‡ GPT-4 Turbo* Claude 3 Opus† Gemini Pro 1.5 Llama 3 405B GPT-4o* Claude 3.5 Sonnet†
GPQA
35.9% 51.0% 56.0% 48,0% 50,4% 46,2% 51,1% 53,6% 59,6%
MMLU
81,3% 86,2% 87,5% 86,5% 85,7% 85,9% 88,6% 88,7% 88,3%
MMLU-Pro
51,0% 72,0% 75,5% 63.7% 68.5% 69.0% 73.3% 72.6% 76.1%
MATH§
50.6% 73.0% 76.1% 72.6% 60.1% 67.7% 73.8% 76.6% 71.1%
HumanEvalś
74.1% 85.7% 88.4% 87.1% 84,9% 71,9% 89,0% 90,2% 92,0%
MMMU
53,6% 63,2% 66,1% 63,1% 59,4% 62,2% 64,5% 69,1% 68,3%
MathVista
52,8% 68,1% 69,0% 58,1% 50.5% 63,9% - 63,8% 67,7%
DocVQA
85,6% 93,2% 93,6% 87,2% 89,3% 93,1% 92,2% 92,8% 95,2%

* Wyniki GPT-4-Turbo i GPT-4o pochodzą z wydania z maja 2024 r.
† Wyniki Claude 3 Opus i Claude 3.5 Sonnet pochodzą z wydania z czerwca 2024 r.
‡ Grok-2 MMLU, MMLU-Pro, MMMU i MathVista zostały ocenione przy użyciu 0-shot CoT.
§ Dla MATH prezentujemy wyniki maj@1.
ś Dla HumanEval, podajemy wyniki testu porównawczego pass@1.
Doświadczenie Grok z informacjami w czasie rzeczywistym na X

W ciągu ostatnich kilku miesięcy stale ulepszaliśmy Grok na platformie X. Dziś przedstawiamy kolejną ewolucję doświadczenia Grok, obejmującą przeprojektowany interfejs i nowe funkcje.

Logo Black Forest Labs.

Użytkownicy X Premium i Premium+ będą mieli dostęp do dwóch nowych modeli: Grok-2 i Grok-2 mini. Grok-2 to nasz najnowocześniejszy asystent AI z zaawansowanymi możliwościami rozumienia tekstu i wizji, integrujący informacje w czasie rzeczywistym z platformy X, dostępny za pośrednictwem zakładki Grok w aplikacji X. Grok-2 mini to nasz mały, ale wydajny model, który oferuje równowagę między szybkością i jakością odpowiedzi. W porównaniu do swojego poprzednika, Grok-2 jest bardziej intuicyjny, sterowny i wszechstronny w szerokim zakresie zadań, niezależnie od tego, czy szukają Państwo odpowiedzi, współpracują przy pisaniu, czy rozwiązują zadania związane z kodowaniem. We współpracy z Black Forest Labs eksperymentujemy z ich modelem FLUX.1, aby rozszerzyć możliwości Grok na X. Jeśli jesteś subskrybentem Premium lub Premium+, upewnij się, że zaktualizowałeś aplikację X do najnowszej wersji, aby przetestować Grok-2 w wersji beta.
Build with Grok using the Enterprise API

Jeszcze w tym miesiącu udostępnimy również Grok-2 i Grok-2 mini deweloperom za pośrednictwem naszej nowej platformy API dla przedsiębiorstw. Nasze nadchodzące API jest zbudowane na nowym stosie technologicznym, który umożliwia wdrażanie wnioskowania w wielu regionach w celu uzyskania dostępu o niskim opóźnieniu na całym świecie. Oferujemy ulepszone funkcje bezpieczeństwa, takie jak obowiązkowe uwierzytelnianie wieloskładnikowe (np. za pomocą Yubikey, Apple TouchID lub TOTP), bogate statystyki ruchu i zaawansowaną analitykę rozliczeń (w tym szczegółowy eksport danych). Ponadto oferujemy interfejs API do zarządzania, który umożliwia integrację zarządzania zespołami, użytkownikami i rozliczeniami z istniejącymi wewnętrznymi narzędziami i usługami. Dołącz do naszego newslettera, aby otrzymać powiadomienie, gdy wystartujemy jeszcze w tym miesiącu.
Co dalej?

Grok-2 i Grok-2 mini są wdrażane na X. Jesteśmy bardzo podekscytowani ich zastosowaniami do szeregu funkcji opartych na sztucznej inteligencji, takich jak ulepszone możliwości wyszukiwania, uzyskiwanie głębszego wglądu w posty X i ulepszone funkcje odpowiedzi, wszystkie obsługiwane przez Grok. Wkrótce udostępnimy podgląd multimodalnego rozumienia jako podstawowej części doświadczenia Grok na X i API.

Od czasu ogłoszenia Grok-1 w listopadzie 2023 r., xAI rozwija się w niezwykłym tempie, napędzanym przez mały zespół o największej gęstości talentów. Wprowadziliśmy Grok-2, pozycjonując nas w czołówce rozwoju sztucznej inteligencji. Skupiamy się na rozwijaniu podstawowych możliwości rozumowania dzięki naszemu nowemu klastrowi obliczeniowemu. W nadchodzących miesiącach będziemy mogli podzielić się z Państwem wieloma innymi osiągnięciami. Poszukujemy osób, które dołączą do naszego niewielkiego, skoncentrowanego zespołu zajmującego się tworzeniem najbardziej wpływowych innowacji dla przyszłości ludzkości. Prosimy aplikować na nasze stanowiska tutaj.

Please share our article, every link counts!
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 08 > xAI wydaje Grok-2 i Grok-2 mini beta AI LLM na ????, a interfejs API dla przedsiębiorstw pojawi się jeszcze w tym miesiącu
David Chien, 2024-08-16 (Update: 2024-08-16)