Каждый поклонник Apple всегда мечтал о полной власти у себя под рукой, и теперь, с новым чипом M4, мы можем говорить о чем-то гораздо большем, чем просто более быстрая работа в интернете или редактирование видео. Речь идет о превращении вашего Mac в полностью локальный, частный сервер искусственного интеллекта. Никакого интернета, никаких ежемесячных подписок и никаких опасений по поводу корпоративного шпионажа за вашими данными. Идея запуска модели ИИ, которая выполняет задачи исследования, планирования и программирования непосредственно с вашего жесткого диска, — это непревзойденный технологический опыт, который может получить сегодня пользователь Mac.

Лабиринт настроек и выбора инструментов.
Это не так просто, как открыть приложение и загрузить шаблон; погружение в мир локальных шаблонов чем-то похоже на сборку компьютера с нуля. Сначала нужно выбрать платформу, которая будет запускать этот шаблон, будь то Ollama, llama.cpp или LM Studio. Каждая платформа имеет свои особенности и ограничения, и не все они поддерживают одни и те же шаблоны. Затем возникает самая большая проблема: выбрать шаблон, который поместится в 24 ГБ оперативной памяти вашего устройства, и при этом останется достаточно места для бесперебойной работы других приложений.

Цель здесь — найти модель, которая обеспечивает большое контекстное окно, предпочтительно 128 000 токенов или больше. Эксперименты с такими моделями, как Qwen 3.6 или GPT-OSS 20B, показали, что, хотя они технически способны работать в памяти, на практике они могут стать непригодными из-за крайней медлительности, в то время как более мелкие модели, такие как Gemma 4B, могут испытывать трудности с реализацией сложных инструментов и задач.
Некоронованный чемпион: Qwen 3.5-9B
После проведения обширных испытаний появилась модель. qwen3.5-9b@q4_k_s Эта модель, являющаяся наиболее сбалансированным вариантом для MacBook Pro с 24 ГБ оперативной памяти, может похвастаться впечатляющей скоростью до 40 токенов в секунду при включенном режиме Thinking Mode и возможностью успешного использования программных инструментов. Хотя иногда она может показаться менее производительной по сравнению с более крупными моделями, работающими в облаке, она все же обеспечивает выдающуюся производительность для ноутбука, не требующего подключения к сети.

Для достижения оптимальных результатов в задачах точного программирования рекомендуется тонко настраивать параметры, например, установить температуру на 0.6 и включить такие опции, как top_p=0.95. Именно эти небольшие технические детали отличают удачное решение от решения, которое застрянет в порочном круге повторения.
Интерактивный рабочий процесс: человек и машина бок о бок
Давайте будем реалистами: нативные модели, такие как Qwen 3.5, пока не готовы к созданию полноценного приложения одним щелчком мыши, как это делают продвинутые облачные модели. Вместо этого они требуют интерактивного рабочего процесса, в котором вы контролируете ситуацию и используете модель в качестве помощника по поиску или «умной резиновой уточки» для мгновенного просмотра кода или вспоминания деталей сложных языков программирования.

Такой подход к работе, хотя и требует от вас больших умственных усилий, побуждает вас мыслить и планировать более эффективно. Вы не делегируете все свои мысли машине; скорее, вы используете ее как инструмент для повышения своей производительности, не теряя при этом контроля над проектом. Это увлекательный и устойчивый технологический опыт, который напоминает нам, почему мы изначально любили технологии: возможность экспериментировать с инструментами и исследовать границы возможного.
Источник:



Оставить отзыв