Google ogłasza modele Gemini 2.0 dla "ery agentów
Dziewięć miesięcy po uruchomieniu Gemini 1.5, Google ogłosiło kolejną dużą aktualizację Large Language Model (LLM), Gemini 2.0. Pierwszy model z tej rodziny, Gemini 2.0 Flash, można wybrać jako model eksperymentalny w Google AI Studio i Vertex AI.
Gemini 2.0 Flash ma "zwiększoną wydajność przy podobnie krótkim czasie reakcji" i przewyższa 1.5 Flash z "dwukrotnie większą prędkością" Oprócz multimodalnych danych wejściowych, takich jak obrazy, tekst, wideo i audio, nowy LLM obsługuje obrazy zmieszane z tekstem i wielojęzycznym dźwiękiem zamiany tekstu na mowę.
2.0 Flash może również natywny dostęp do Google Search i obsługuje wykonywanie kodu innych firm oraz wstępnie zdefiniowane funkcje. Google udostępnia również programistom Multimodal Live API. Zoptymalizowana pod kątem czatu wersja 2.0 Flash będzie dostępna w przeglądarkach stacjonarnych i mobilnych. Google twierdzi, że wkrótce będzie dostępna wersja dla aplikacji mobilnej Gemini.
Prototyp badawczy Google Project Astra został również zaktualizowany o Gemini 2.0 i ma teraz lepszy dialog, rozumowanie i natywną obsługę narzędzi takich jak wyszukiwarka Google, Lens i Mapy. Ma do 10 minut pamięci w sesji.
Project Mariner, kolejny prototyp badawczy zbudowany na 2.0, może zrozumieć złożone instrukcje i uzyskać dostęp do informacji z ekranu przeglądarki, w tym "pikseli i elementów internetowych, takich jak tekst, kod, obrazy i formularze, a następnie wykorzystuje te informacje za pośrednictwem eksperymentalnego rozszerzenia Chrome do wykonywania zadań za Ciebie"
Trzeci prototyp, eksperymentalny asystent kodu AI, Jules, może być zintegrowany bezpośrednio z przepływami pracy GitHub. Ma on możliwości rozumowania i logiki, aby stawić czoła wyzwaniom związanym z kodem i opracować plan ich rozwiązania pod nadzorem programisty.
Google twierdzi, że zbudował również agentów AI "przy użyciu Gemini 2.0, które mogą pomóc w poruszaniu się po wirtualnym świecie gier wideo. Może on wnioskować o grze wyłącznie na podstawie akcji na ekranie i oferować sugestie, co robić dalej w rozmowie w czasie rzeczywistym"