Google ogłasza nowe modele języka wizyjnego PaliGemma 2

Google ogłasza nowe modele języka wizyjnego PaliGemma 2 (Źródło obrazu: Google)

Modele Google PaliGemma 2 są dostępne w wielu rozmiarach i rozdzielczościach oraz mogą rozumieć tekst, obrazy i filmy. Google zachwala również możliwość tworzenia szczegółowych, kontekstowych podpisów.

Rohith Bhaskar (tłumaczenie Ninh Duy), Opublikowany 06/12/2024 🇺🇸 🇫🇷 ...

Google ogłosił kontynuację modelu języka wizualnego PaliGemma uruchomionego w maju 2024 roku. PaliGemma 2 jest dostępna w wielu rozmiarach od 3 miliardów parametrów do 28 miliardów i różnych rozmiarach rozdzielczości do 896px.

Firma twierdzi, że model wyświetla "wiodącą wydajność w zakresie rozpoznawania wzorów chemicznych, rozpoznawania utworów muzycznych, rozumowania przestrzennego i generowania raportów RTG klatki piersiowej"

Posiada również długie funkcje podpisów ze "szczegółowymi, kontekstowo istotnymi podpisami do obrazów, wykraczającymi poza prostą identyfikację obiektów, aby opisać działania, emocje i ogólną narrację sceny"

Nowe modele będą oferowane jako "zamiennik" w wielu rozmiarach bez "większych modyfikacji kodu" Wstępnie wytrenowane modele są dostępne na stronie Hugging Face i Kaggle i można je bezpłatnie pobrać i wypróbować. Obsługuje również wiele frameworków, w tym Hugging Face Transformers, Keras, PyTorch, JAX i Gemma.cpp.

Google twierdzi, że "elastyczność PaliGemma 2 sprawia, że dostrajanie do konkretnych zadań i zestawów danych jest proste, umożliwiając dostosowanie jego możliwości do konkretnych potrzeb"