Тест ИИ моделей на 128Gb DDR4 ECC E5-2673v3 x2 - Печальные результаты
Тестирование небольших ИИ моделей на разных устройствах
Изначально хотелось выяснить на сколько возможно использование DeepSeek 671b на серверной ddr4 ecc памяти с процессорами на платформе 2011v3. Однако в моём распоряжении есть только 128gb памяти, чего достаточно только для запуска небольших моделей. Поэтому для понимания ситуации было проведено несколько тестов с ними.
Тестирование нескольких нейросетевых моделей на разном оборудовании показало значительные различия в производительности. Для анализа была использована фраза: "Привет! Расскажи о себе, что ты за модель?", которую я прогнал через различные ИИ модели. Ниже приведены результаты тестов на двух платформах.
Модель / Генерация токенов в сек. | Результат на Ryzen 3700x + 64Gb + 3070Ti | Результат на E5-2673v3 x2 + 128Gb DDR4 ECC |
---|---|---|
qwx-32b q6_k | 1,56 | 0,98 |
llama-2-7b-chat q5_k_m | 60,26 | 4,4 |
deepseek-r1-distill-llama-70b@q3_k_l | 0,98 | 0,67 |
deepseek-r1-distill-qwen-32b q8 | 1,16 | 0,7 |
gemma-3-27b-it q4_k_s | 2,3 | 1,49 |
Анализ результатов
Тестирование показало, что использование видеокарты, даже если модель не полностью загружена в её память, значительно улучшает результаты в обработке. Модели, использующие GPU, показывают лучшие результаты по сравнению с CPU-only конфигурациями.
Результаты на платформе Ryzen 3700x + 64Gb + 3070Ti
На платформе Ryzen с видеокартой 3070Ti, модель qwx-32b q6_k обрабатывает 1,56 токенов в секунду, что является довольно быстрым результатом.
Модель gemma-3-27b-it q4_k_s показала 2,3 токенов в секунду.
Легкая llama-2-7b-chat q5_k_m полностью поместилась в память видеокарты и показала крайне впечатляющий результат — 60,26 токенов в секунду. Это указывает на то, что для таких моделей не требуется серверное оборудование для нормальной работы.
Результаты на серверной платформе E5-2673v3 x2 + 128Gb DDR4 ECC
На серверной платформе с двумя процессорами E5-2673v3 результаты гораздо медленнее, особенно для моделей, использующих GPU. Модель qwx-32b q6_k обработала 0,98 токенов в секунду, что является значительным ухудшением по сравнению с той же моделью на платформе Ryzen+GPU.
Для модели deepseek-r1-distill-llama-70b@q3_k_l серверная платформа показала результат 0,67 токенов в секунду.
Модель gemma-3-27b-it q4_k_s на сервере продемонстрировала результат 1,49 токенов в секунду, что почти в два раза медленнее, чем на платформе Ryzen+GPU.
Выводы
Результаты тестирования подтверждают, что использование видеокарты заметно улучшает производительность моделей ИИ, что особенно важно для более тяжелых и ресурсоемких моделей. Видеокарта позволяет значительно ускорить обработку запросов, и даже при неполной загрузке модели в память видеокарты она даёт ощутимый прирост производительности, как это видно на примере использования 3070Ti на платформе Ryzen.
Для моделей, требующих большого объема памяти, таких как deepseek и qwen, серверные платформы с несколькими процессорами и большим объемом памяти более предпочтительны по цене, но никак не по производительности.
Таким образом, смысл запуска модели DeepSeek 671b на чистой серверной ddr4 практически не имеет смысла. Результаты маловероятно будут вменяемыми.