xAI wydaje Grok-2 i Grok-2 mini beta AI LLM na ????, a interfejs API dla przedsiębiorstw pojawi się jeszcze w tym miesiącu
xAI wydało Grok-2 i Grok-2 mini beta AI large-language models (LLMs) na X z interfejsem API dla przedsiębiorstw, który pojawi się jeszcze w tym miesiącu. Możliwości generowania obrazów Grok-2 zostały również rozszerzone dzięki integracji FLUX.1 AI z Black Forest Labs. Druga wersja pojawiła się prawie dziewięć miesięcy po pierwszym wydaniu w listopadzie 2023 roku i jest natychmiast dostępna dla subskrybentów Premium i Premium+ X w ramach testów beta. Dostęp API do Grok-2 LLM pojawi się jeszcze w tym miesiącu.
xAI to startup skupiający się na rozwoju sztucznej inteligencji, który został założony przez Elona Muska, właściciela X (dawniej Twittera). Firma wypuściła swój pierwszy LLM w 2023 roku, który został zintegrowany z usługą X w celu zapewnienia możliwości AI. Grok-1 został zaprojektowany tak, aby nie był tak obudzony, ocenzurowany lub nudny jak konkurencyjne LLM, takie jak GPT-4o od OpenAI. Takie uprzedzenia wpływają na odpowiedzi wszystkich AI LLM wykorzystywanych obecnie w usługach chatbotów, powodując uprzedzenia rasowe a nawet absurdalne odpowiedzi. Co ważne, Grok-1 został wydany jako free 296 GB downloadi jest jednym z niewielu najbardziej wydajnych rozwiązań LLM wydanych jako oprogramowanie open-source.
W ciągu ostatniego roku nastąpił znaczący postęp w wydajności LLM. Najnowsze wersje, takie jak OpenAI GPT-4o i Anthropic Claude 3.5 Sonnetoferują rozszerzoną wiedzę, a także wyższą wydajność. Czytelnicy, którzy uwielbiają korzystać z AI, mogą nosić Okulary AI(takie jak te na Amazon) podczas planowania dnia Humanoidalne roboty AI przejmą obowiązki domowe.
Według wewnętrznych testów xAI, Grok-2 i Grok-2 mini beta zajmują wysokie pozycje wśród wszystkich LLM na całym świecie. xAI nie przedstawiło testów porównawczych najnowszej wersji Grok z najnowszymi konkurencyjnymi LLM. Niemniej jednak, Grok-2 uplasował się jako jeden z czterech najpotężniejszych LLM w rankingu chatbotów LMSYS i wśród sześciu najlepszych w szeregu standardowych testów porównawczych AI.
W szczególności, sierpniowa wersja OpenAI GPT-4o wyprzedza wczesną wersję Grok-2 w tabeli liderów, podczas gdy Anthropic Claude 3.5 Sonnet o nieznanej dacie plasuje się za Grok-2. W ośmiu standaryzowanych benchmarkach SI, starsza majowa wersja GPT-4o pokonuje Grok-2 cztery na osiem razy, podczas gdy Claude 3.5 Sonnet pokonuje Grok-2 sześć na osiem razy.
Źródło(a)
13 sierpnia 2024 r.
Grok-2 Beta Release
Grok-2 to nasz pionierski model językowy z najnowocześniejszymi możliwościami wnioskowania. To wydanie zawiera dwóch członków rodziny Grok: Grok-2 i Grok-2 mini. Oba modele są obecnie udostępniane użytkownikom Groka na platformie X.
Jesteśmy podekscytowani wydaniem wczesnego podglądu Grok-2, znaczącego kroku naprzód w stosunku do naszego poprzedniego modelu Grok-1.5, oferującego pionierskie możliwości w zakresie czatu, kodowania i wnioskowania. Jednocześnie wprowadzamy Grok-2 mini, małe, ale zdolne rodzeństwo Grok-2. Wczesna wersja Grok-2 została przetestowana na tablicy wyników LMSYS pod nazwą "sus-column-r" W momencie publikacji tego wpisu na blogu, przewyższa on zarówno Claude 3.5 Sonnet, jak i GPT-4-Turbo.
Grok-2 i Grok-2 mini są obecnie w wersji beta na X, a jeszcze w tym miesiącu udostępnimy oba modele za pośrednictwem naszego interfejsu API dla przedsiębiorstw.
Model językowy Grok-2 i możliwości czatu
Wprowadziliśmy wczesną wersję Grok-2 pod nazwą "sus-column-r" na arenę chatbotów LMSYS, popularnego konkurencyjnego testu porównawczego modeli językowych. Przewyższa on zarówno Claude, jak i GPT-4 w tabeli liderów LMSYS pod względem ogólnego wyniku Elo.
Wewnętrznie stosujemy porównywalny proces oceny naszych modeli. Nasi AI Tutorzy współpracują z naszymi modelami w różnych zadaniach, które odzwierciedlają rzeczywiste interakcje z Grok. Podczas każdej interakcji, AI Tutorom prezentowane są dwie odpowiedzi wygenerowane przez Grok. Wybierają oni lepszą odpowiedź w oparciu o konkretne kryteria określone w naszych wytycznych. Skupiliśmy się na ocenie możliwości modelu w dwóch kluczowych obszarach: podążaniu za instrukcjami i dostarczaniu dokładnych, opartych na faktach informacji. Grok-2 wykazał znaczną poprawę w zakresie rozumowania na podstawie wyszukanych treści i możliwości korzystania z narzędzi, takich jak prawidłowe identyfikowanie brakujących informacji, rozumowanie poprzez sekwencje zdarzeń i odrzucanie nieistotnych postów.
Benchmarki
Oceniliśmy modele Grok-2 pod kątem szeregu akademickich testów porównawczych, które obejmowały rozumowanie, czytanie ze zrozumieniem, matematykę, nauki ścisłe i kodowanie. Zarówno Grok-2, jak i Grok-2 mini wykazują znaczną poprawę w stosunku do naszego poprzedniego modelu Grok-1.5. Osiągają one poziomy wydajności konkurencyjne do innych modeli frontierowych w takich obszarach jak wiedza naukowa na poziomie absolwenta (GPQA), wiedza ogólna (MMLU, MMLU-Pro) i problemy matematyczne (MATH). Ponadto Grok-2 wyróżnia się w zadaniach opartych na wzroku, zapewniając najnowocześniejsze wyniki w wizualnym rozumowaniu matematycznym (MathVista) i odpowiadaniu na pytania oparte na dokumentach (DocVQA).
Benchmark Grok-1.5 Grok-2 mini‡ Grok-2‡ GPT-4 Turbo* Claude 3 Opus† Gemini Pro 1.5 Llama 3 405B GPT-4o* Claude 3.5 Sonnet†
GPQA
35.9% 51.0% 56.0% 48,0% 50,4% 46,2% 51,1% 53,6% 59,6%
MMLU
81,3% 86,2% 87,5% 86,5% 85,7% 85,9% 88,6% 88,7% 88,3%
MMLU-Pro
51,0% 72,0% 75,5% 63.7% 68.5% 69.0% 73.3% 72.6% 76.1%
MATH§
50.6% 73.0% 76.1% 72.6% 60.1% 67.7% 73.8% 76.6% 71.1%
HumanEvalś
74.1% 85.7% 88.4% 87.1% 84,9% 71,9% 89,0% 90,2% 92,0%
MMMU
53,6% 63,2% 66,1% 63,1% 59,4% 62,2% 64,5% 69,1% 68,3%
MathVista
52,8% 68,1% 69,0% 58,1% 50.5% 63,9% - 63,8% 67,7%
DocVQA
85,6% 93,2% 93,6% 87,2% 89,3% 93,1% 92,2% 92,8% 95,2%
* Wyniki GPT-4-Turbo i GPT-4o pochodzą z wydania z maja 2024 r.
† Wyniki Claude 3 Opus i Claude 3.5 Sonnet pochodzą z wydania z czerwca 2024 r.
‡ Grok-2 MMLU, MMLU-Pro, MMMU i MathVista zostały ocenione przy użyciu 0-shot CoT.
§ Dla MATH prezentujemy wyniki maj@1.
ś Dla HumanEval, podajemy wyniki testu porównawczego pass@1.
Doświadczenie Grok z informacjami w czasie rzeczywistym na X
W ciągu ostatnich kilku miesięcy stale ulepszaliśmy Grok na platformie X. Dziś przedstawiamy kolejną ewolucję doświadczenia Grok, obejmującą przeprojektowany interfejs i nowe funkcje.
Logo Black Forest Labs.
Użytkownicy X Premium i Premium+ będą mieli dostęp do dwóch nowych modeli: Grok-2 i Grok-2 mini. Grok-2 to nasz najnowocześniejszy asystent AI z zaawansowanymi możliwościami rozumienia tekstu i wizji, integrujący informacje w czasie rzeczywistym z platformy X, dostępny za pośrednictwem zakładki Grok w aplikacji X. Grok-2 mini to nasz mały, ale wydajny model, który oferuje równowagę między szybkością i jakością odpowiedzi. W porównaniu do swojego poprzednika, Grok-2 jest bardziej intuicyjny, sterowny i wszechstronny w szerokim zakresie zadań, niezależnie od tego, czy szukają Państwo odpowiedzi, współpracują przy pisaniu, czy rozwiązują zadania związane z kodowaniem. We współpracy z Black Forest Labs eksperymentujemy z ich modelem FLUX.1, aby rozszerzyć możliwości Grok na X. Jeśli jesteś subskrybentem Premium lub Premium+, upewnij się, że zaktualizowałeś aplikację X do najnowszej wersji, aby przetestować Grok-2 w wersji beta.
Build with Grok using the Enterprise API
Jeszcze w tym miesiącu udostępnimy również Grok-2 i Grok-2 mini deweloperom za pośrednictwem naszej nowej platformy API dla przedsiębiorstw. Nasze nadchodzące API jest zbudowane na nowym stosie technologicznym, który umożliwia wdrażanie wnioskowania w wielu regionach w celu uzyskania dostępu o niskim opóźnieniu na całym świecie. Oferujemy ulepszone funkcje bezpieczeństwa, takie jak obowiązkowe uwierzytelnianie wieloskładnikowe (np. za pomocą Yubikey, Apple TouchID lub TOTP), bogate statystyki ruchu i zaawansowaną analitykę rozliczeń (w tym szczegółowy eksport danych). Ponadto oferujemy interfejs API do zarządzania, który umożliwia integrację zarządzania zespołami, użytkownikami i rozliczeniami z istniejącymi wewnętrznymi narzędziami i usługami. Dołącz do naszego newslettera, aby otrzymać powiadomienie, gdy wystartujemy jeszcze w tym miesiącu.
Co dalej?
Grok-2 i Grok-2 mini są wdrażane na X. Jesteśmy bardzo podekscytowani ich zastosowaniami do szeregu funkcji opartych na sztucznej inteligencji, takich jak ulepszone możliwości wyszukiwania, uzyskiwanie głębszego wglądu w posty X i ulepszone funkcje odpowiedzi, wszystkie obsługiwane przez Grok. Wkrótce udostępnimy podgląd multimodalnego rozumienia jako podstawowej części doświadczenia Grok na X i API.
Od czasu ogłoszenia Grok-1 w listopadzie 2023 r., xAI rozwija się w niezwykłym tempie, napędzanym przez mały zespół o największej gęstości talentów. Wprowadziliśmy Grok-2, pozycjonując nas w czołówce rozwoju sztucznej inteligencji. Skupiamy się na rozwijaniu podstawowych możliwości rozumowania dzięki naszemu nowemu klastrowi obliczeniowemu. W nadchodzących miesiącach będziemy mogli podzielić się z Państwem wieloma innymi osiągnięciami. Poszukujemy osób, które dołączą do naszego niewielkiego, skoncentrowanego zespołu zajmującego się tworzeniem najbardziej wpływowych innowacji dla przyszłości ludzkości. Prosimy aplikować na nasze stanowiska tutaj.