Odkryto sposób na uruchomienie modelu sztucznej inteligencji DeepSeek 671B bez drogich procesorów graficznych
Wprowadzony na rynek 20 stycznia 2025 r. DeepSeek-R1 to model Mixture-of-Experts (MoE) o 671B parametrów z 37B aktywnych parametrów na token. Zaprojektowany z myślą o zaawansowanym wnioskowaniu, obsługuje 128 tys. tokenów wejściowych i generuje do 32 tys. tokenów. Dzięki architekturze MoE zapewnia najwyższą wydajność przy jednoczesnym wykorzystaniu mniejszej ilości zasobów niż tradycyjne gęste modele.
Niezależne testy https://docsbot.ai/models/compare/o1-preview/deepseek-r1#benchmarks sugerują, że model językowy R1 osiąga wydajność porównywalną z O1 OpenAI, pozycjonując go jako konkurencyjną alternatywę w aplikacjach AI o wysokiej stawce. Dowiedzmy się, czego potrzebujemy, aby uruchomić go lokalnie.
Sprzęt
Ta kompilacja koncentruje się na dwóch procesorach AMD Epyc i 768 GB pamięci RAM DDR5 - nie są potrzebne żadne drogie procesory graficzne.
- Obudowa: Enthoo Pro 2 Server
- Płyta główna: Gigabyte MZ73-LM0 lub MZ73-LM1 (posiada dwa gniazda CPU i 24 gniazda RAM)
- Procesor: 2x AMD Epyc 9004/9005 (9115 lub 9015 jako bardziej budżetowe opcje)
- Chłodzenie: Arctic Freezer 4U-SP5
- Pamięć RAM: 24x 32GB DDR5 RDIMM (łącznie 768 GB)
- Pamięć masowa: 1TB+ NVMe SSD (aby szybko załadować 700 GB wagi modelu)
- Zasilacz: Corsair HX1000i (1000W, dużo dla dwóch procesorów)
Oprogramowanie i konfiguracja
Po zmontowaniu, proszę uruchomić Linux i llama.cpp proszę zainstalować aby uruchomić model. Kluczowa modyfikacja BIOS-u, polegająca na ustawieniu grup NUMA na 0, podwaja wydajność pamięci RAM, zapewniając lepszą wydajność. Pełne 700 GB wagi DeepSeek-R1 można pobrać ze strony https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/mainze strony Hugging Face.
Wydajność
Ta konfiguracja generuje 6-8 tokenów na sekundę - nieźle jak na w pełni lokalny model wysokiej klasy sztucznej inteligencji. Pomija ona całkowicie GPU, ale jest to zamierzone. Uruchomienie kwantyzacji Q8 (dla wysokiej jakości) na GPU wymagałoby ponad 700 GB pamięci VRAM, co kosztowałoby ponad 100 tysięcy dolarów. Pomimo swojej surowej mocy, cały system zużywa poniżej 400 W, co czyni go zaskakująco wydajnym.
Dla tych, którzy chcą mieć pełną kontrolę nad graniczną sztuczną inteligencją, bez chmury, bez ograniczeń, jest to przełom. Udowadnia on, że zaawansowana sztuczna inteligencja może być uruchamiana lokalnie, w sposób w pełni open-source, przy jednoczesnym priorytetowym traktowaniu prywatności danych, minimalizowaniu podatności na naruszenia i eliminowaniu zależności od systemów zewnętrznych.
Źródło(a)
Matthew Carrigan na X, Docsbot, DeepSeek, obrazek zwiastujący: Pixabay