Sức mạnh của M4 nằm trong tay bạn: Làm thế nào để chạy các mô hình AI cục bộ với 24GB bộ nhớ?

Mọi người hâm mộ Apple đều luôn mơ ước có được sức mạnh hoàn hảo trong tầm tay, và giờ đây với chip M4 mới, chúng ta có thể nói về điều gì đó vượt xa việc chỉ duyệt web nhanh hơn hay chỉnh sửa video nhanh hơn. Chúng ta đang nói về việc biến chiếc Mac của bạn thành một máy chủ AI riêng tư, hoàn toàn cục bộ. Không cần internet, không cần đăng ký hàng tháng và không cần lo lắng về việc các công ty theo dõi dữ liệu của bạn. Ý tưởng chạy một mô hình AI thực hiện các tác vụ nghiên cứu, lập kế hoạch và lập trình trực tiếp từ ổ cứng của bạn là trải nghiệm công nghệ đỉnh cao mà người dùng Mac có thể có được ngày nay.


Mê cung của các cài đặt và lựa chọn công cụ

Việc sử dụng các mẫu giao diện cục bộ không đơn giản như mở một ứng dụng và tải một mẫu có sẵn; nó giống như việc lắp ráp một chiếc máy tính từ đầu. Đầu tiên, bạn phải chọn nền tảng sẽ chạy mẫu đó, cho dù đó là Ollama, llama.cpp hay LM Studio. Mỗi nền tảng đều có những đặc điểm và hạn chế riêng, và chúng không hỗ trợ cùng một mẫu. Sau đó là thử thách lớn nhất: chọn một mẫu phù hợp với dung lượng RAM 24GB của thiết bị, đồng thời vẫn chừa đủ không gian cho các ứng dụng khác chạy mượt mà.

Mục tiêu ở đây là tìm một mô hình cung cấp cửa sổ ngữ cảnh lớn, tốt nhất là từ 128 token trở lên. Các thử nghiệm với các mô hình như Qwen 3.6 hoặc GPT-OSS 20B đã chỉ ra rằng mặc dù về mặt kỹ thuật chúng có khả năng hoạt động trong bộ nhớ, nhưng chúng có thể trở nên không thể sử dụng được trên thực tế do tốc độ cực kỳ chậm, trong khi các mô hình nhỏ hơn như Gemma 4B có thể gặp khó khăn trong việc triển khai các công cụ và tác vụ phức tạp.


Nhà vô địch không chính thức: Qwen 3.5-9B

Sau quá trình thử nghiệm rộng rãi, một mô hình đã ra đời. qwen3.5-9b@q4_k_s Là lựa chọn cân bằng tốt nhất cho MacBook Pro 24GB, mẫu máy này tự hào có tốc độ ấn tượng lên đến 40 token mỗi giây khi bật Chế độ Tư duy (Thinking Mode) và khả năng sử dụng hiệu quả các công cụ phần mềm. Mặc dù đôi khi có thể cảm thấy hơi chậm hơn so với các mẫu máy tính xách tay có kết nối đám mây lớn hơn, nhưng nó vẫn mang lại hiệu năng vượt trội đối với một chiếc máy tính xách tay không cần kết nối mạng.

Để đạt được kết quả tối ưu trong các tác vụ lập trình chính xác, nên tinh chỉnh các thiết lập, chẳng hạn như đặt nhiệt độ ở mức 0.6 và bật các tùy chọn như top_p=0.95. Những chi tiết kỹ thuật nhỏ này chính là yếu tố tạo nên sự khác biệt giữa một câu trả lời thông minh và một câu trả lời rơi vào vòng luẩn quẩn lặp đi lặp lại.


Quy trình làm việc tương tác: Con người và máy móc cùng hợp tác.

Hãy thực tế mà nói, các mô hình gốc như Qwen 3.5 chưa thực sự sẵn sàng để xây dựng một ứng dụng hoàn chỉnh chỉ với một cú nhấp chuột như các mô hình dựa trên đám mây tiên tiến. Thay vào đó, chúng yêu cầu một quy trình làm việc tương tác, nơi bạn kiểm soát và sử dụng mô hình như một trợ lý tìm kiếm hoặc một "trợ lý thông minh" để xem xét mã hoặc nhớ lại chi tiết của các ngôn ngữ lập trình phức tạp ngay lập tức.

Cách làm việc này, dù đòi hỏi nhiều nỗ lực tinh thần hơn, nhưng lại khuyến khích bạn suy nghĩ và lập kế hoạch hiệu quả hơn. Bạn không giao phó toàn bộ quá trình tư duy cho máy móc; thay vào đó, bạn sử dụng nó như một công cụ để nâng cao năng suất mà không mất kiểm soát dự án. Đó là một trải nghiệm công nghệ thú vị và bền vững, nhắc nhở chúng ta lý do tại sao chúng ta yêu thích công nghệ ngay từ đầu: khả năng thử nghiệm các công cụ và khám phá giới hạn của những điều có thể.

Bạn đã thử chạy mô hình AI cục bộ trên máy Mac của mình chưa, hay bạn thích dựa vào các dịch vụ đám mây hơn?

Nguồn:

jola.dev

Để lại phản hồi