O poder do M4 está em suas mãos: como executar modelos de IA localmente com 24 GB de memória?

Todo entusiasta da Apple sempre sonhou em ter poder absoluto na ponta dos dedos, e agora, com o novo chip M4, podemos falar de algo muito além de apenas navegação na web mais rápida ou edição de vídeo. Estamos falando de transformar seu Mac em um servidor de IA totalmente local e privado. Sem internet, sem assinaturas mensais e sem preocupações com espionagem corporativa dos seus dados. A ideia de executar um modelo de IA que realiza tarefas de pesquisa, planejamento e programação diretamente do seu disco rígido é a experiência tecnológica definitiva que um usuário de Mac pode ter hoje.


O labirinto de configurações e seleção de ferramentas

Não é tão simples quanto abrir um aplicativo e carregar um modelo; entrar no mundo dos modelos locais é um pouco como montar um computador do zero. Primeiro, você precisa escolher a plataforma que executará o modelo, seja Ollama, llama.cpp ou LM Studio. Cada plataforma tem suas peculiaridades e limitações, e nem todas suportam os mesmos modelos. Depois vem o maior desafio: escolher um modelo que caiba nos 24 GB de RAM do seu dispositivo, deixando espaço suficiente para que seus outros aplicativos funcionem sem problemas.

O objetivo aqui é encontrar um modelo que forneça uma grande janela de contexto, de preferência com 128 tokens ou mais. Experimentos com modelos como o Qwen 3.6 ou o GPT-OSS 20B mostraram que, embora sejam tecnicamente capazes de operar na memória, podem se tornar praticamente inutilizáveis ​​devido à extrema lentidão, enquanto modelos menores como o Gemma 4B podem ter dificuldades na implementação de ferramentas e tarefas complexas.


Campeã sem coroa: Qwen 3.5-9B

Após extensos testes, surge um modelo. qwen3.5-9b@q4_k_s Como a opção mais equilibrada para um MacBook Pro de 24 GB, este modelo oferece velocidades impressionantes de até 40 tokens por segundo com o Modo Pensamento ativado e a capacidade de utilizar com sucesso as ferramentas de software. Embora possa ocasionalmente apresentar alguma lentidão em comparação com modelos maiores baseados na nuvem, ainda oferece um desempenho excepcional para um laptop que não requer conexão de rede.

Para obter resultados ótimos em tarefas de programação precisas, é aconselhável ajustar as configurações, como definir a temperatura para 0.6 e ativar opções como top_p=0.95. Esses pequenos detalhes técnicos fazem a diferença entre uma resposta inteligente e uma que cai em um ciclo vicioso de repetição.


Fluxo de trabalho interativo: Humanos e máquinas lado a lado

Sejamos realistas: modelos nativos como o Qwen 3.5 ainda não estão prontos para criar um aplicativo completo com um único clique, como os modelos avançados baseados em nuvem. Em vez disso, eles exigem um fluxo de trabalho interativo, no qual você está no controle e usa o modelo como um assistente de busca ou um "pato de borracha" inteligente para revisar instantaneamente o código ou relembrar detalhes de linguagens de programação complexas.

Essa abordagem de trabalho, embora exija mais esforço mental, incentiva você a pensar e planejar com mais eficácia. Você não está delegando todo o seu raciocínio à máquina; em vez disso, está usando-a como uma ferramenta para aumentar sua produtividade sem perder o controle do projeto. É uma experiência tecnológica divertida e sustentável que nos lembra por que amamos a tecnologia em primeiro lugar: a capacidade de experimentar ferramentas e explorar os limites do que é possível.

Você já tentou executar um modelo de IA localmente no seu Mac, ou prefere usar serviços em nuvem?

Fonte:

jola.dev

Deixe uma resposta