Hugging Face ogłasza nowy, open-source'owy model języka wizji SmolVLM
Hugging Face, repozytorium uczenia maszynowego, zestawów danych i narzędzi sztucznej inteligencji, opublikowało na stronie https://huggingface.co/blog/smolvlm open-source'owy model języka wizji, który jest lekki i zbudowany z myślą o wydajności i szybkości. Vision Language Models (VLM) jest w stanie zrozumieć zarówno tekst, jak i dane wizualne.
Model jest dostępny do użytku komercyjnego z otwartymi potokami szkoleniowymi, co oznacza, że zbiory danych, kod i metody używane do trenowania modelu są publicznie dostępne. Hugging Face ma trzy warianty modelu - SmolVM-Base, SmolVM-Synthetic i SmolVM Instruct.
SmolVM-Base jest przeznaczony do dalszego dostrajania, co oznacza, że można go adoptować i trenować do określonych zadań. Synthetic jest szkolony na sztucznych danych i nie wykorzystuje rzeczywistych zestawów danych, a Instruct może być "używany od razu po wyjęciu z pudełka do interaktywnych aplikacji użytkownika końcowego"
Hugging Face twierdzi, że SmolVM wymaga zaledwie 5,7 GB pamięci RAM GPU, dzięki czemu jest mniejszy i bardziej wydajny niż konkurenci, tacy jak PaliGemma 3B, InternVL2 2B i Qwen2-VL-2B. Dzięki temu może działać na laptopach z ograniczoną pamięcią VRAM.
Jest on również bardziej wydajny pod względem tokenów w porównaniu do innych modeli. Tokeny mierzą szybkość i wydajność modelu, a SmolVM może zakodować obraz 384x384 w 81 tokenach, w porównaniu do Qwen2-VL, który wykorzystuje 16k tokenów. Model ten wymaga również mniejszej mocy obliczeniowej i pamięci RAM do jego uruchomienia.
Hugging Face to strona , na której znajduje się demo zbudowane na SmolVM-Instruct z nadzorowanym skryptem szkoleniowym, który każdy może wypróbować.