Hugging Face ogłasza nowy, open-source'owy model języka wizji SmolVLM

Hugging Face ogłasza nowy open-source'owy model języka wizji SmolVLM (Źródło obrazu: Hugging Face)

Firma Hugging Face wprowadziła lekki, open-source'owy model języka wizyjnego SmolVLM, który według firmy został stworzony z myślą o wydajności i szybkości.

Rohith Bhaskar (tłumaczenie Ninh Duy), Opublikowany 03/12/2024 🇺🇸 🇮🇹 ...

Hugging Face, repozytorium uczenia maszynowego, zestawów danych i narzędzi sztucznej inteligencji, opublikowało na stronie https://huggingface.co/blog/smolvlm open-source'owy model języka wizji, który jest lekki i zbudowany z myślą o wydajności i szybkości. Vision Language Models (VLM) jest w stanie zrozumieć zarówno tekst, jak i dane wizualne.

Model jest dostępny do użytku komercyjnego z otwartymi potokami szkoleniowymi, co oznacza, że zbiory danych, kod i metody używane do trenowania modelu są publicznie dostępne. Hugging Face ma trzy warianty modelu - SmolVM-Base, SmolVM-Synthetic i SmolVM Instruct.

SmolVM-Base jest przeznaczony do dalszego dostrajania, co oznacza, że można go adoptować i trenować do określonych zadań. Synthetic jest szkolony na sztucznych danych i nie wykorzystuje rzeczywistych zestawów danych, a Instruct może być "używany od razu po wyjęciu z pudełka do interaktywnych aplikacji użytkownika końcowego"

Hugging Face twierdzi, że SmolVM wymaga zaledwie 5,7 GB pamięci RAM GPU, dzięki czemu jest mniejszy i bardziej wydajny niż konkurenci, tacy jak PaliGemma 3B, InternVL2 2B i Qwen2-VL-2B. Dzięki temu może działać na laptopach z ograniczoną pamięcią VRAM.

Jest on również bardziej wydajny pod względem tokenów w porównaniu do innych modeli. Tokeny mierzą szybkość i wydajność modelu, a SmolVM może zakodować obraz 384x384 w 81 tokenach, w porównaniu do Qwen2-VL, który wykorzystuje 16k tokenów. Model ten wymaga również mniejszej mocy obliczeniowej i pamięci RAM do jego uruchomienia.

Hugging Face to strona , na której znajduje się demo zbudowane na SmolVM-Instruct z nadzorowanym skryptem szkoleniowym, który każdy może wypróbować.

Źródło(a)

Przytulanie twarzy

OnePlus zapowiada nadchodzącą globa...

Intel Arc B580 i Arc B570: Nowe kar...

Editor of the original article: Rohith Bhaskar - Tech Writer - 225 articles published on Notebookcheck since 2024

contact me via: LinkedIn

Translator: Ninh Ngoc Duy - Editorial Assistant - 521059 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 12 > Hugging Face ogłasza nowy, open-source'owy model języka wizji SmolVLM

Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)