Google ogłasza nowe modele języka wizyjnego PaliGemma 2
Google ogłosił kontynuację modelu języka wizualnego PaliGemma uruchomionego w maju 2024 roku. PaliGemma 2 jest dostępna w wielu rozmiarach od 3 miliardów parametrów do 28 miliardów i różnych rozmiarach rozdzielczości do 896px.
Firma twierdzi, że model wyświetla "wiodącą wydajność w zakresie rozpoznawania wzorów chemicznych, rozpoznawania utworów muzycznych, rozumowania przestrzennego i generowania raportów RTG klatki piersiowej"
Posiada również długie funkcje podpisów ze "szczegółowymi, kontekstowo istotnymi podpisami do obrazów, wykraczającymi poza prostą identyfikację obiektów, aby opisać działania, emocje i ogólną narrację sceny"
Nowe modele będą oferowane jako "zamiennik" w wielu rozmiarach bez "większych modyfikacji kodu" Wstępnie wytrenowane modele są dostępne na stronie Hugging Face i Kaggle i można je bezpłatnie pobrać i wypróbować. Obsługuje również wiele frameworków, w tym Hugging Face Transformers, Keras, PyTorch, JAX i Gemma.cpp.
Google twierdzi, że "elastyczność PaliGemma 2 sprawia, że dostrajanie do konkretnych zadań i zestawów danych jest proste, umożliwiając dostosowanie jego możliwości do konkretnych potrzeb"