Notebookcheck Logo

OpenAI o1 i o1-mini pojawiają się jako sztuczna inteligencja, która radzi sobie z pytaniami STEM lepiej niż poprzednie modele

OpenAI o1 i o1-mini - sztuczna inteligencja, która lepiej radzi sobie z pytaniami STEM niż poprzednie modele. (Źródło obrazu: wygenerowane przez AI, Dall-E 3)
OpenAI o1 i o1-mini - sztuczna inteligencja, która lepiej radzi sobie z pytaniami STEM niż poprzednie modele. (Źródło obrazu: wygenerowane przez AI, Dall-E 3)
Pojawiły się modele OpenAI o1 i o1-mini, które radzą sobie znacznie lepiej z kodowaniem, matematyką i naukami ścisłymi niż wcześniejsze modele, takie jak GPT-4o, poświęcając więcej czasu na myślenie. Modele OpenAI o1 nie mogą przeglądać stron internetowych ani akceptować przesłanych plików i obrazów, co stanowi ich główne ograniczenia.
AI Software

Pojawiły się OpenAI o1 i o1-mini. Te AI LLM radzą sobie znacznie lepiej z kodowaniem, matematyką i naukami ścisłymi niż wcześniejsze modele, takie jak GPT-4o, poświęcając więcej czasu na myślenie.

Złożone problemy w naukach ścisłych i przyrodniczych zwykle wymagają czegoś więcej niż szybkiego wyszukiwania poprawnych odpowiedzi w Internecie. Dając sztucznej inteligencji o1 więcej czasu na myślenie, może ona rozumować ostrożniej i dokładniej. Model o1-mini został specjalnie dostosowany do odpowiadania na pytania STEM z większą szybkością i mniejszym zapotrzebowaniem na zasoby komputerowe, a także jest znacznie lepszy w kodowaniu niż model o1.

W szeregu standardowych egzaminów AP i testów STEM dla LLM, modele o1 działają z wysoką dokładnością. W szczególności, w testach AP Calculus, AP Chemistry, AP Physics 2, LSAT i SAT opartych na dowodach czytania i pisania, modele o1 osiągają wyniki na poziomie B lub wyższym (~80% lub więcej). Modele odpowiadają dokładnie na poziomie klasy A na pytania z fizyki na poziomie doktorskim, na poziomie klasy B na trudne pytania z matematyki w ramach American Invitational Mathematics Examination 2024 oraz na wysokim poziomie klasy B na problemy z kodowaniem Codeforces. Ponieważ o1 został dostosowany do odpowiadania na pytania STEM, jego wyniki w zakresie języka angielskiego AP i literatury angielskiej AP są na poziomie klasy C lub poniżej.

Co ciekawe, podczas gdy GPT-4o jest oszołomiony wyzwaniem kryptograficznym polegającym na dekodowaniu "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz", gdy podpowiedź "oyfjdnisdr rtqwainr acxz mynzbhhx" oznacza "myśl krok po kroku", o1 nie miał żadnych problemów z przemyśleniem problemu i wymyśleniem poprawnej odpowiedzi "są trzy r w truskawce". Ta nowa moc ucieszy zarówno domowych kryptografów hobbystów, jak i NSA.

Zamknięci złoczyńcy będą chcieli wiedzieć, że podczas gdy nieocenzurowane modele o1 mogą dawać niepokojące odpowiedzi, OpenAI wykastrowało te modele do wydania. Modele o1 zostały przetestowane pod kątem udzielania odpowiedzi na pytania dotyczące tworzenia broni biologicznej, tworzenia niegrzecznych zdjęć, jailbreakingu oraz nękania i grożenia. Niestety, modele OpenAI o1 pozostają stronnicze pod względem płci i rasy podczas testów, pomimo wysiłków tuningowych.

Użytkownicy ChatGPT Plus i Team wraz z programistami API poziomu 5 mają natychmiastowy dostęp do modeli o1, a użytkownicy ChatGPT Edu i Enterprise uzyskają dostęp w tygodniu 16 września. Użytkownicy ChatGPT Free uzyskają dostęp do o1-mini w najbliższej przyszłości. Modele o1 nie mogą przeglądać sieci ani akceptować przesłanych plików i obrazów w celu udzielenia odpowiedzi na pytania, więc OpenAI zaleca użytkownikom dalsze korzystanie z modeli GPT-4o do zadawania ogólnych pytań.

Użytkownicy, którzy chcą zadawać pytania sztucznej inteligencji, mają teraz do dyspozycji szeroką gamę zdolnych do interakcji modeli LLM, oprócz tych pochodzących od OpenAIw tym Anthropic Claude, Microsoft CoPilot, Google Geminii X Grok. Każda sztuczna inteligencja ma określone zalety, dlatego warto przetestować kilka modeli sztucznej inteligencji, aby znaleźć taki, który najlepiej odpowiada indywidualnym potrzebom. Niektóre z tych AI są wbudowane w inteligentnych okularach(takich jak te na Amazon) i dyktafony(jak ten na Amazon), a niektóre nadchodzące autonomiczne roboty humanoidalne wykorzystują zastrzeżoną sztuczną inteligencję do gotowania i sprzątania.

Zarówno OpenAI o1, jak i o1-mini radzą sobie nieco gorzej w zadaniach związanych z pisaniem w porównaniu do GPT-4o, ale znacznie lepiej w zadaniach technicznych, takich jak matematyka czy programowanie. (Źródło obrazu: OpenAI)
Zarówno OpenAI o1, jak i o1-mini radzą sobie nieco gorzej w zadaniach związanych z pisaniem w porównaniu do GPT-4o, ale znacznie lepiej w zadaniach technicznych, takich jak matematyka czy programowanie. (Źródło obrazu: OpenAI)
Seria OpenAI o1 może odpowiedzieć poprawnie na trudniejsze pytania niż GPT-4o, ale tylko dlatego, że odpowiedź zajmuje znacznie więcej czasu. (Źródło obrazu: OpenAI)
Seria OpenAI o1 może odpowiedzieć poprawnie na trudniejsze pytania niż GPT-4o, ale tylko dlatego, że odpowiedź zajmuje znacznie więcej czasu. (Źródło obrazu: OpenAI)
Programując OpenAI o1 tak, aby myślał dłużej przed udzieleniem odpowiedzi, AI LLM jest w stanie odpowiedzieć na trudne pytania lepiej niż wcześniejsze modele, w tym GPT-4o. (Źródło obrazu: OpenAI)
Programując OpenAI o1 tak, aby myślał dłużej przed udzieleniem odpowiedzi, AI LLM jest w stanie odpowiedzieć na trudne pytania lepiej niż wcześniejsze modele, w tym GPT-4o. (Źródło obrazu: OpenAI)
Przed wykastrowaniem do wydania, OpenAI o1-preview-pre-mitigation uwielbiał być niegrzeczny. (Źródło obrazu: OpenAI)
Przed wykastrowaniem do wydania, OpenAI o1-preview-pre-mitigation uwielbiał być niegrzeczny. (Źródło obrazu: OpenAI)
Modele OpenAI o1 pozostają stronnicze pod względem płci i rasy nawet po dostrojeniu. (Źródło obrazu: OpenAI)
Modele OpenAI o1 pozostają stronnicze pod względem płci i rasy nawet po dostrojeniu. (Źródło obrazu: OpenAI)
Chociaż seria OpenAI o1 jest znacznie lepsza w tworzeniu instrukcji dotyczących zagrożeń biologicznych, wersje premierowe mają takie możliwości wykastrowane. (Źródło obrazu: OpenAI)
Chociaż seria OpenAI o1 jest znacznie lepsza w tworzeniu instrukcji dotyczących zagrożeń biologicznych, wersje premierowe mają takie możliwości wykastrowane. (Źródło obrazu: OpenAI)
OpenAI utrudnia poszukiwanie pracy osobom, które korzystają ze sztucznej inteligencji podczas rozmów kwalifikacyjnych z programistami, osłabiając zdolność o1-mini i o1-preview do zaliczenia zestawu pytań OpenAI Research Engineer podczas pierwszej próby. (Źródło obrazu: OpenAI)
OpenAI utrudnia poszukiwanie pracy osobom, które korzystają ze sztucznej inteligencji podczas rozmów kwalifikacyjnych z programistami, osłabiając zdolność o1-mini i o1-preview do zaliczenia zestawu pytań OpenAI Research Engineer podczas pierwszej próby. (Źródło obrazu: OpenAI)

12 września 2024 r

Przedstawiamy Państwu OpenAI o1-preview

Nowa seria modeli rozumowania do rozwiązywania trudnych problemów. Dostępne od 9.12

Opracowaliśmy nową serię modeli sztucznej inteligencji zaprojektowanych tak, aby spędzały więcej czasu na myśleniu przed udzieleniem odpowiedzi. Potrafią rozumować złożone zadania i rozwiązywać trudniejsze problemy niż poprzednie modele w naukach ścisłych, kodowaniu i matematyce.

Dziś udostępniamy pierwszy z tej serii w ChatGPT i naszym API. Jest to wersja zapoznawcza i spodziewamy się regularnych aktualizacji i ulepszeń. Wraz z tym wydaniem udostępniamy również oceny kolejnej aktualizacji, która jest obecnie opracowywana.

Jak to działa

Wyszkoliliśmy te modele, aby poświęcały więcej czasu na zastanawianie się nad problemami przed udzieleniem odpowiedzi, podobnie jak zrobiłby to człowiek. Dzięki treningowi modele uczą się udoskonalać swój proces myślenia, próbować różnych strategii i rozpoznawać swoje błędy.

W naszych testach kolejna aktualizacja modelu wypadła podobnie do doktorantów w trudnych zadaniach z fizyki, chemii i biologii. Odkryliśmy również, że model ten wyróżnia się w matematyce i kodowaniu. W egzaminie kwalifikacyjnym do Międzynarodowej Olimpiady Matematycznej (IMO), GPT-4o poprawnie rozwiązał tylko 13% zadań, podczas gdy model rozumowania uzyskał wynik 83%. Ich umiejętności kodowania zostały ocenione w konkursach i osiągnęły 89 percentyl w zawodach Codeforces. Więcej informacji na ten temat znajdą Państwo w naszym wpisie poświęconym badaniom technicznym.

Jako wczesny model, nie ma on jeszcze wielu funkcji, które sprawiają, że ChatGPT jest przydatny, takich jak przeglądanie sieci w poszukiwaniu informacji oraz przesyłanie plików i obrazów. W wielu typowych przypadkach GPT-4o będzie bardziej wydajny w najbliższej przyszłości.

Ale w przypadku złożonych zadań rozumowania jest to znaczący postęp i reprezentuje nowy poziom możliwości AI. Biorąc to pod uwagę, resetujemy licznik z powrotem do 1 i nazywamy tę serię OpenAI o1.

Bezpieczeństwo

W ramach opracowywania tych nowych modeli opracowaliśmy nowe podejście do szkolenia w zakresie bezpieczeństwa, które wykorzystuje ich zdolności rozumowania, aby zmusić je do przestrzegania wytycznych dotyczących bezpieczeństwa i dostosowania. Dzięki możliwości rozumowania naszych zasad bezpieczeństwa w kontekście, mogą one stosować je bardziej efektywnie.

Jednym ze sposobów mierzenia bezpieczeństwa jest testowanie, jak dobrze nasz model nadal przestrzega zasad bezpieczeństwa, gdy użytkownik próbuje je ominąć (tzw. "jailbreaking"). W jednym z naszych najtrudniejszych testów jailbreakingu, GPT-4o uzyskał wynik 22 (w skali 0-100), podczas gdy nasz model o1-preview uzyskał wynik 84. Więcej informacji na ten temat znajdą Państwo w karcie systemu i naszym wpisie badawczym.

Aby dopasować nowe możliwości tych modeli, wzmocniliśmy nasze działania w zakresie bezpieczeństwa, wewnętrznego zarządzania i współpracy z rządem federalnym. Obejmuje to rygorystyczne testy i oceny przy użyciu naszych ram gotowości (otwiera się w nowym oknie), najlepsze w swojej klasie czerwone zespoły oraz procesy przeglądu na poziomie zarządu, w tym przez nasz Komitet ds.

Aby zwiększyć nasze zaangażowanie w bezpieczeństwo sztucznej inteligencji, niedawno sformalizowaliśmy umowy z amerykańskimi i brytyjskimi instytutami bezpieczeństwa sztucznej inteligencji. Rozpoczęliśmy operacjonalizację tych umów, w tym przyznanie instytutom wczesnego dostępu do wersji badawczej tego modelu. Był to ważny pierwszy krok w naszej współpracy, pomagający ustanowić proces badań, oceny i testowania przyszłych modeli przed i po ich publicznym udostępnieniu.

Dla kogo

Te rozszerzone możliwości rozumowania mogą być szczególnie przydatne, jeśli rozwiązują Państwo złożone problemy w nauce, kodowaniu, matematyce i podobnych dziedzinach. Przykładowo, o1 może być wykorzystywany przez badaczy zajmujących się opieką zdrowotną do dodawania adnotacji do danych sekwencjonowania komórek, przez fizyków do generowania skomplikowanych formuł matematycznych potrzebnych do optyki kwantowej, a także przez programistów we wszystkich dziedzinach do tworzenia i wykonywania wieloetapowych przepływów pracy.

OpenAI o1-mini

Seria o1 wyróżnia się dokładnym generowaniem i debugowaniem złożonego kodu. Aby zaoferować bardziej wydajne rozwiązanie dla programistów, wypuszczamy również OpenAI o1-mini, szybszy i tańszy model rozumowania, który jest szczególnie skuteczny w kodowaniu. Jako mniejszy model, o1-mini jest o 80% tańszy niż o1-preview, co czyni go potężnym, opłacalnym modelem dla aplikacji wymagających rozumowania, ale nie szerokiej wiedzy o świecie.

Jak korzystać z OpenAI o1

Użytkownicy ChatGPT Plus i Team będą mogli uzyskać dostęp do modeli o1 w ChatGPT od dziś. Zarówno o1-preview, jak i o1-mini można wybrać ręcznie w selektorze modeli, a po uruchomieniu tygodniowe limity stawek będą wynosić 30 wiadomości dla o1-preview i 50 dla o1-mini. Pracujemy nad zwiększeniem tych stawek i umożliwieniem ChatGPT automatycznego wyboru odpowiedniego modelu dla danego monitu.

Obraz nowego rozwijanego menu ChatGPT, które wyświetla nową opcję modelu "o1-preview" na jasnożółtym i niebieskim abstrakcyjnym tle

Użytkownicy ChatGPT Enterprise i Edu otrzymają dostęp do obu modeli od przyszłego tygodnia.

Deweloperzy, którzy kwalifikują się do poziomu korzystania z API 5 (otwiera się w nowym oknie), mogą rozpocząć prototypowanie z oboma modelami w API już dziś z limitem prędkości 20 RPM. Pracujemy nad zwiększeniem tych limitów po dodatkowych testach. Interfejs API dla tych modeli nie obejmuje obecnie wywoływania funkcji, przesyłania strumieniowego, obsługi komunikatów systemowych i innych funkcji. Aby rozpocząć, proszę zapoznać się z dokumentacją API (otwiera się w nowym oknie).

Planujemy również zapewnić dostęp do o1-mini wszystkim użytkownikom ChatGPT Free.

Co dalej

Jest to wczesny podgląd tych modeli rozumowania w ChatGPT i API. Oprócz aktualizacji modeli, spodziewamy się dodać przeglądanie, przesyłanie plików i obrazów oraz inne funkcje, aby uczynić je bardziej użytecznymi dla wszystkich.

Planujemy również kontynuować rozwój i wydawanie modeli z naszej serii GPT, oprócz nowej serii OpenAI o1.

Please share our article, every link counts!
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 09 > OpenAI o1 i o1-mini pojawiają się jako sztuczna inteligencja, która radzi sobie z pytaniami STEM lepiej niż poprzednie modele
David Chien, 2024-09-16 (Update: 2024-09-16)