Máy A vẫn cho kết quả đúng với ý của mình hơn, mặc dù outline vẫn chưa thực sự chi tiết, cũng có những ghi chú thêm cho mình khi quay khi nhấn mạnh vào DLSS 4 và Multi Frame Gen là hai công nghệ nổi bật nhất khi nhắc đến RTX 50 Series, cũng như nó đưa ra đề xuất về định dạng cho mình, chia bố cục làm sao để hợp lý.
12.53 tok/sec và 7.21 giây cho frist token cũng không đến nỗi tệ. Đối với máy B, tốc độ 14.5 tok/sec và 17.22 giây cho frist token thì một lần nữa AMD Ryzen AI 300 Series thể hiện hiệu quả tốt hơn, mặc dù máy A không phải là một chiếc laptop gaming.

Thử tiếp thêm một lần nữa nhưng không phải là file tài liệu mà mình ném cho mô hình một bài viết, copy toàn bộ phần text quăng vào khung chat và yêu cầu nó tạo kịch bản video unbox sản phẩm. Khi không có phải truy vấn vào file tài liệu thì mô hình xử lý rất nhanh, chưa tới 1 phút và kết quả cho ra là kịch bản của một video ngắn, độ dài khoảng tầm 3 phút. Nếu mình chi tiết hơn về kịch bản thì nó có thể cho đúng ý mình hơn.
Ở khoản này thì cả hai máy đều làm tốt, với máy A là 14.56 tok/sec còn máy B là 16.08 tok/sec và 0.17 giây cho frist token.
Bỏ vào 1 file tài liệu bài viết của mình nói về chuyện sạc pin và các lầm tưởng phổ biến, mình nhờ mô hình tóm tắt bài viết trong 2-3 câu và nêu ý chính. Kết quả thì máy A và B đều làm tốt, chủ yếu chúng ta thích câu trả lời nào hơn.

Với trường hợp này mình nghĩ rằng với các bạn học sinh sinh viên, các bạn có thể bỏ tài liệu của mình vào đây là tra cứu bằng mô hình, với một tài liệu học tập và khả năng hoạt động offline thì đây là thứ mà mình nghĩ rằng nó sẽ giúp ích tốt nhất cho người dùng.
Với khả năng lập luận, mình thử hỏi một câu hỏi giống như mình đã hỏi trên MacBook Air M3 trước đây, câu trả lời nhận được vẫn tốt và mình đánh giá có tính suy luận nhưng để suy luận giống như con người thì chưa. Mô hình vẫn suy luận theo logic toán học và cho rằng con gà biết bay. Thực tế thì con gà biết bay nhưng nó không thể bay cao và bay xa.
Mình thử đặt tiếp một câu hỏi mang tính suy nghĩ và đánh giá sâu hơn, mang khả năng suy luận và đưa ra kết luận không theo kiểu đúng hay sai mà dựa vào tình huống. Kết quả mình khá ấn tượng với gpt-oss-20b trong khả năng suy luận của nó, nó có thể đưa ra được các bước và nhiều tình huống vì sao chúng ta cần yêu thương và không nên yêu thương kẻ bạo hành, đồng thời chỉ ra rằng những trường hợp nào thì chúng ta không cần làm điều đó.

Mình nhờ mô hình viết một câu chuyện ngắn 100-150 từ với chủ đề "công nghệ thay đổi cuộc sống con người", kết quả câu chuyện cho ra trên máy A và cả máy B đều khá logic và thực tế, mô tả câu chuyện của một kỹ sư trẻ tuổi với những thiết bị công nghệ phục vụ đời sống xung quanh anh hay là câu chuyện về sự kết nối giữa mọi người ở khắp nơi trên thế giới. Các câu chuyện này có thể sử dụng được.
Tiếp mình muốn mô hình tạo cho mình một giao diện clone Excel với đầy đủ bố cục và có thể nhập số để tính toán đơn giản. Đây là một bài thử có lẽ là nặng nề nhất từ đầu đến giờ, thử khả năng lập trình ở mức cơ bản để xem kết quả có như mình mong đợi hay không.

Với máy A thì nó chỉ mất 1.9 giây để có frist token và tốc độ nhả chữ khá ấn tượng 14.22 tok/sec, nhưng kết quả mới là quan trọng thì mình có thử mở file HTML mà mô hình đã xây dựng thì nó chỉ đạt được yêu cầu ở mức kẻ bảng giống với giao diện của Excel mà thôi, chưa thể làm được các thanh công cụ, khả năng nhập liệu cũng như giao diện cũng không giống với Excel.

Với máy B cũng tương tự, nhưng cách nó phân tách ra các phần khác nhau rất rõ ràng, nếu muốn thì bạn cũng có thể nói nó gộp thành 1 file HTML duy nhất để có thể chạy được trên trình duyệt.

Những câu hỏi đơn giản để xem mô hình trả lời như thế nào, ví dụ bài toán phơi 10 bộ quần áo mất 1 giờ để khô và phơi 15 bộ trong cùng điều kiện thì mất bao lâu. Kết quả thì gpt-oss-20b trả lời đúng là 1 giờ trên cả hai máy, thời gian để "nhả" token đầu tiên đều dưới 2 giây.
Tiếp là bài toán đếm chữ trong một từ, do LLM có cách đếm khác biệt chúng ta nên ngày trước đa phần các mô hình sẽ trả lời sai, ví dụ từ "strawberry" có bao nhiêu chữ "r". Kết quả là gpt-oss-20b có thể trả lời đúng là 3 chữ, nhưng nếu Input một file tài liệu và kêu nó đếm số từ thì nó không thể làm được.
So với thời điểm trước, hiện tại máy tính Windows đã sử dụng các mô hình LLM chạy trực tiếp trên máy khá là ổn, tuy nhiên có một số lưu ý mình nhận ra muốn chia sẻ với anh em:
- Nền tảng AMD Ryzen AI 300 Series chạy gpt-oss-20b rất tốt, rất ngon, có thể nói là tiệm cận với MacBook Air luôn mặc dù máy tính Windows không sử dụng kiến trúc Unified Memory. Cái lợi hại của AMD Ryzen AI 300 Series ở chỗ nó là APU, đồng thời NPU của máy có thể tác động 1 phần vào quá trình tăng tốc. Trong quá trình chạy mình offload hoàn toàn cho GPU và Radeon 890M thực sự là làm mình ấn tượng.

- Với các máy tính Windows, đặc biệt là laptop gaming có GPU rời nếu không có VRAM lớn, kinh nghiệm của mình là đẩy cho CPU xử lý sẽ nhanh hơn và hiệu quả hơn nhiều.
- Khả năng code của gpt-oss-20b thực sự tốt với những nhu cầu đơn giản và cơ bản, tính toán không quá phức tạp.
- Đừng kỳ vọng quá cao vào mô hình gpt-oss-20b bởi vì nó chỉ phù hợp cho máy tính mỏng, nhẹ, từ 16GB RAM trở lên thôi, thậm chí cả mô hình 120 tỷ tham số cũng chưa chắc đã phù hợp với nhu cầu sử dụng của bạn. Cách tốt nhất đó là bạn hãy thử các công việc của bạn thường làm với mô hình này của OpenAI vì nó miễn phí mà, cứ thử thoải mái.
- Các mô hình chạy local này bị giới hạn về khả năng tìm kiếm thông tin thời gian thực, vì thế cần tra cứu gì cứ lên mô hình cloud sẽ tốt nhất.