Elke Apple-liefhebber heeft er altijd van gedroomd om volledige controle binnen handbereik te hebben, en met de nieuwe M4-chip kunnen we het nu hebben over iets dat veel verder gaat dan alleen sneller internetten of video's bewerken. We hebben het over het transformeren van je Mac in een volledig lokale, privé AI-server. Geen internet, geen maandelijkse abonnementen en geen zorgen over bedrijfsspionage op je gegevens. Het idee om een AI-model te draaien dat onderzoek, planning en programmeertaken rechtstreeks vanaf je harde schijf uitvoert, is de ultieme technologische ervaring die een Mac-gebruiker vandaag de dag kan beleven.

Het doolhof van instellingen en gereedschapsselectie
Het is niet zo eenvoudig als een applicatie openen en een template laden; de wereld van lokale templates betreden is een beetje zoals een computer helemaal opnieuw bouwen. Eerst moet je het platform kiezen waarop die template draait, of dat nu Ollama, llama.cpp of LM Studio is. Elk platform heeft zijn eigen eigenaardigheden en beperkingen, en ze ondersteunen niet allemaal dezelfde templates. Dan komt de grootste uitdaging: een template kiezen die past binnen de 24 GB RAM van je apparaat, terwijl er nog genoeg ruimte overblijft voor je andere applicaties om soepel te draaien.

Het doel is om een model te vinden dat een groot contextvenster biedt, bij voorkeur 128 tokens of meer. Experimenten met modellen zoals Qwen 3.6 of GPT-OSS 20B hebben aangetoond dat, hoewel ze technisch gezien in het geheugen kunnen werken, ze door hun extreme traagheid in de praktijk onbruikbaar kunnen worden. Kleinere modellen zoals Gemma 4B kunnen daarentegen moeite hebben met het implementeren van complexe tools en taken.
Ongekroonde kampioen: Qwen 3.5-9B
Na uitgebreide tests komt er een model naar voren. qwen3.5-9b@q4_k_s Als de best gebalanceerde optie voor een MacBook Pro met 24 GB, biedt dit model indrukwekkende snelheden tot wel 40 tokens per seconde met de Denkmodus ingeschakeld en de mogelijkheid om softwaretools succesvol te gebruiken. Hoewel het soms wat trager aanvoelt dan grotere, cloudgebaseerde modellen, levert het nog steeds uitstekende prestaties voor een laptop die geen netwerkverbinding vereist.

Om optimale resultaten te behalen bij precieze programmeertaken, is het raadzaam de instellingen te verfijnen, zoals het instellen van de temperatuur op 0.6 en het inschakelen van opties zoals top_p=0.95. Deze kleine technische details maken het verschil tussen een slim antwoord en een antwoord dat in een vicieuze cirkel van herhaling terechtkomt.
Interactieve workflow: mens en machine zij aan zij
Laten we realistisch zijn: native modellen zoals Qwen 3.5 zijn nog niet klaar om met één klik een complete applicatie te bouwen, zoals geavanceerde cloudgebaseerde modellen dat wel kunnen. In plaats daarvan vereisen ze een interactieve workflow waarbij je de controle hebt en het model gebruikt als zoekassistent of een slimme 'rubberen eend' om direct code te bekijken of de details van complexe programmeertalen op te vragen.

Deze manier van werken, hoewel het meer mentale inspanning van je vergt, stimuleert je om effectiever te denken en te plannen. Je delegeert niet al je denkwerk aan de machine; je gebruikt het juist als een hulpmiddel om je productiviteit te verhogen zonder de controle over het project te verliezen. Het is een leuke en duurzame technologische ervaring die ons eraan herinnert waarom we technologie in de eerste plaats zo geweldig vonden: de mogelijkheid om met tools te experimenteren en de grenzen van het mogelijke te verkennen.
Bron:



Laat een antwoord achter