Ollama оказался медленным и небезопасным – лучше брать оригинальный llama.cpp

3 мин
Ollama оказался медленным и небезопасным – лучше брать оригинальный llama.cpp

Zetaphor опубликовал в своем блоге “Sleeping robots” резонансный пост. Автор, известный в сообществе локальных LLM, жёстко раскритиковал самый популярный средство для запуска нейросетей на собственном железе – Ollama (стартап, прошедший Y Combinator W21 и привлёкший венчурные деньги). Поводом послужила многолетняя череда проблем: от игнорирования лицензии MIT и замалчивания реального движка llama.cpp до выпуска закрытой десктоп-программы.

Ollama появилась в 2023 году как удобная обёртка над llama.cpp – тем самым C++-движком, который Георгий Герганов набросал за один вечер в марте 2023 года. Именно llama.cpp, с его форматом GGUF и поддержкой более 450 контрибьюторов, сделал возможным запуск LLM на обычных ноутбуках.

Проблема в том, что больше года в README Ollama не было ни слова про llama.cpp, а бинарные сборки не включали требуемое лицензией MIT уведомление об авторских правах. Когда в начале 2024 года открыли issue #3185 с требованием соблюсти лицензию, мейнтейнеры молчали более 400 дней. Позже, под давлением сообщества, один из сооснователей Майкл Чианг добавил в самый низ README одну строчку: “llama.cpp project founded by Georgi Gerganov”.

В середине 2025 года Ollama отказалась от llama.cpp в пользу собственной реализации поверх библиотеки ggml (низкоуровневого тензорного движка). Формальная причина – стабильность для корпоративных клиентов. Фактический итог – возвращение старых багов, которые llama.cpp побеждал годами. Сломалась сопровождение структурированного вывода, полетели vision-модели, посыпались assertion-крэши.

Сам Георгий Герганов заметил в твиттере, что Ollama форкнула GGML и внесла в него плохие изменения. А бенчмарки показали катастрофу: llama.cpp быстрее Ollama в 1,8 раза (161 токен/с против 89) на GPU, а на процессорах разрыв достигает 30–50 процентов. Тест на Qwen-3 Coder 32B продемонстрировал ~70% преимущество llama.cpp по пропускной способности.

Когда DeepSeek выпустил семейство R1 в январе 2025, Ollama выложила в своей библиотеке дистиллированные версии 8B, 32B (на базе Qwen и Llama⚹) просто как “DeepSeek-R1”, отрезав суффикс “-Distill”. Пользователи искренне верили, что запускают 671-миллиардную оригинальную схема на домашнем ПК, а потом жаловались на плохую работу – что нанесло репутационный ущерб DeepSeek. GitHub-issues #8557 и #8698 с просьбой разделить модели закрыли без исправления.

В июле 2025 Ollama выпустила закрытую десктоп-программу для macOS и Windows в приватном репозитории, без лицензии и исходников. Одновременно на сайте кнопка скачивания стояла рядом со ссылкой на GitHub, создавая ложное впечатление, что вы получаете MIT-инструмент. Сообщество забило тревогу, и только через несколько месяцев исходник всё-таки влили в главный репозиторий.

Ollama придумала Modelfile – отдельный конфигурационный файл в стиле Dockerfile, в котором нужно прописывать макет чата, стоп-токены, параметры сэмплирования. Хотя спецификация GGUF требует, чтобы вся эта данные была уже внутри файла модели (пункт № 1: “Не нужно дополнительной информации от пользователя”). В результате, если Ollama не узнает макет из своего хардкоженного списка, она просто ломает структура инструкций, а потребитель вынужден вручную переводить Jinja-шаблон в синтаксис Go. При смене температуры или системного промпта Ollama копирует 30–60 ГБ модели – ведь команда ollama create дублирует весь GGUF.

Автор поста приводит список альтернатив, чем заменить Ollama:

  • llama.cpp – родной движок с OpenAI-совместимым сервером и веб-интерфейсом и полным контролем.

  • llama-swap + LiteLLM – оркестрация нескольких моделей.

  • LM Studio / Jan / Msty – графические приложения.

  • koboldcpp – ещё одна обёртка с веб-интерфейсом для творческих задач.

  • ramalama от Red Hat – контейнерный раннер.

Llama – инициатива компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.

Читают сейчас

Авторы Telega: заказчик Telega не превращает iPhone в «кирпич» после обновления до iOS 26.4.1

2 часа назад

Авторы Telega: заказчик Telega не превращает iPhone в «кирпич» после обновления до iOS 26.4.1

Разработчики Telega заявили, что их альтернативный клиент Telegram не превращает iPhone в «кирпич» после обновления до iOS 26.4.1. В команде проекта пояснили. что проблемы в связи с обновления не связ

Инициатива World Альтмана интегрирует технологию верификации в приложения для знакомств

2 часа назад

Инициатива World Альтмана интегрирует технологию верификации в приложения для знакомств

Инициатива Сэма Альтмана по верификации пользователей World заключает партнёрство с Tinder, чтобы интегрировать свою технологию верификации в программа для знакомств. Аналогичные технологии планируетс

Альтман покинет OpenAI перед IPO? Его сделки слишком часто обогащают не OpenAI, а его самого

2 часа назад

Альтман покинет OpenAI перед IPO? Его сделки слишком часто обогащают не OpenAI, а его самого

The Wall Street Journal опубликовала расследование о личных инвестициях CEO OpenAI Сэма Альтмана. Часть акционеров компании стартовали приватно обсуждать, стоит ли именно ему вести OpenAI на IPO с цел

В Duolingo прекратили отслеживать использование сотрудниками ИИ при оценке эффективности

2 часа назад

В Duolingo прекратили отслеживать использование сотрудниками ИИ при оценке эффективности

В апреле 2025 года генеральный директор Duolingo Луис фон Ан объявил, что система будет отслеживать использование ИИ сотрудниками в процессе оценки их работы. Теперь топ-менеджер заявил, что этот пока

Исследование: для разблокировки по лицу на Android-смартфонах можно применять фото

3 часа назад

Исследование: для разблокировки по лицу на Android-смартфонах можно применять фото

Тесты в лабораториях Which выявили, что функцию блокировки по лицу во многих современных смартфонах можно обойти, используя лишь фотографию владельца. Читать далее