Notebookcheck Logo

Hugging Face ogłasza nowy, open-source'owy model języka wizji SmolVLM

Hugging Face ogłasza nowy open-source'owy model języka wizji SmolVLM (Źródło obrazu: Hugging Face)
Hugging Face ogłasza nowy open-source'owy model języka wizji SmolVLM (Źródło obrazu: Hugging Face)
Firma Hugging Face wprowadziła lekki, open-source'owy model języka wizyjnego SmolVLM, który według firmy został stworzony z myślą o wydajności i szybkości.
AI

Hugging Face, repozytorium uczenia maszynowego, zestawów danych i narzędzi sztucznej inteligencji, opublikowało na stronie https://huggingface.co/blog/smolvlm open-source'owy model języka wizji, który jest lekki i zbudowany z myślą o wydajności i szybkości. Vision Language Models (VLM) jest w stanie zrozumieć zarówno tekst, jak i dane wizualne.

Model jest dostępny do użytku komercyjnego z otwartymi potokami szkoleniowymi, co oznacza, że zbiory danych, kod i metody używane do trenowania modelu są publicznie dostępne. Hugging Face ma trzy warianty modelu - SmolVM-Base, SmolVM-Synthetic i SmolVM Instruct.

SmolVM-Base jest przeznaczony do dalszego dostrajania, co oznacza, że można go adoptować i trenować do określonych zadań. Synthetic jest szkolony na sztucznych danych i nie wykorzystuje rzeczywistych zestawów danych, a Instruct może być "używany od razu po wyjęciu z pudełka do interaktywnych aplikacji użytkownika końcowego"

Hugging Face twierdzi, że SmolVM wymaga zaledwie 5,7 GB pamięci RAM GPU, dzięki czemu jest mniejszy i bardziej wydajny niż konkurenci, tacy jak PaliGemma 3B, InternVL2 2B i Qwen2-VL-2B. Dzięki temu może działać na laptopach z ograniczoną pamięcią VRAM.

Jest on również bardziej wydajny pod względem tokenów w porównaniu do innych modeli. Tokeny mierzą szybkość i wydajność modelu, a SmolVM może zakodować obraz 384x384 w 81 tokenach, w porównaniu do Qwen2-VL, który wykorzystuje 16k tokenów. Model ten wymaga również mniejszej mocy obliczeniowej i pamięci RAM do jego uruchomienia.

Hugging Face to strona , na której znajduje się demo zbudowane na SmolVM-Instruct z nadzorowanym skryptem szkoleniowym, który każdy może wypróbować.

Źródło(a)

Please share our article, every link counts!
Mail Logo
> laptopy testy i recenzje notebooki > Nowinki > Archiwum v2 > Archiwum 2024 12 > Hugging Face ogłasza nowy, open-source'owy model języka wizji SmolVLM
Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)