Thử nghiệm mô hình gpt-oss-20b trên ultrabook và laptop gaming chạy Windows

Trang chủ > Tin tức > CÔNG NGHỆ

Thử nghiệm mô hình gpt-oss-20b trên ultrabook và laptop gaming chạy Windows

14/08/2025 09:46

Hiện tại mình đang có 2 chiếc laptop Windows đủ cấu hình từ Intel và AMD và cả GPU rời NVIDIAnữa, mình sẽ thử chạy mô hình gpt-oss-20b trên những chiếc laptop này để xem hiệu năng và khả năng của các mô hình nó đến đâu khi chạy trên những chiếc laptop này.

Mô hình gpt-oss-20b là mô hình open weight OpenAI ra mắt với 2 phiên bản là 120b và 20b, với mô hình 20b sẽ phù hợp cho các mẫu laptop cá nhân, phù hợp với đại đa số người dùng (laptop từ 16GB RAM trở lên là dùng được rồi). Còn với mô hình 120b thì máy phải RAM nhiều (từ 64GB trở lên) và cấu hình mạnh mới dùng được và số lượng đó cũng không nhiều.

Những mẫu laptop mình test

Mình sẽ tạm gọi là các mẫu laptop A và B tương ứng với các cấu hình:
Screenshot 2025-08-13 115642.png

Máy A: AMD Ryzen AI 9 HX 370, 32GB RAM và 1TB SSD.

Máy B: Intel Core i7-14650HX, RTX 5060 8GB, 32GB RAM và 1TB SSD.

Trước đó mình đã test qua MacBook Air M3 cũng như mod Đức đã test qua MacBook Pro M2 Max 96GB RAM mà sử dụng mô hình gpt-oss-120b. Anh em có thể đọc lại những nội dung đó dưới đây.

#TinhteTest: Chạy model GPT-OSS:120 tỷ tham số trên Macbook Pro M2 Max 96GB RAM, như GPT-4o online

Trong bài viết này, mình sẽ thử test chi tiết khả năng của model AI miễn phí GPT-OSS 120 tỷ tham số mà OpenAI vừa phát hành mấy ngày qua. Đây là model mạnh nhất trong 2 model miễn phí mà công ty lần đầu tiên phát hành. Khả năng của nó được giới...

tinhte.vn

#TinhteTest: Thử nghiệm nhanh mô hình gpt-oss-20b trên MacBook Air M3 24GB RAM

MacBook Air M3 từng được Apple cho là chiếc laptop tốt nhất cho AI, mình cũng có bài viết bình luận về vấn đề này. Tuy nhiên, bây giờ thì có lẽ câu đó không còn đúng nữa vì MacBook Air M4 đã ra mắt, dẫu sao mình cũng vẫn muốn thử mô hình gpt-oss...

tinhte.vn

Mặc dù xét về kiến trúc SoC thì MacBook hay những con chip Apple Silicon đang có lợi thế lớn hơn nhờ Unified Memory, nhưng laptop Windows cũng có những bước tiến lớn trong mấy năm qua để đáp ứng nhu cầu sử dụng mô hình AI trực tiếp ngay trên máy, đặc biệt là AMD.

Mình thử 2 máy này đại diện cho 2 hệ máy mà người dùng sử dụng nhiều nhất (ultrabook và laptop gaming), chắc chỉ thiếu nền tảng Windows Arm của những chiếc laptop chạy chip của Qualcomm mà thôi, đó là AMD Ryzen AI 300 Series và GPU rời NVIDIA RTX 50 Series + CPU Intel.

Thời gian load model lần đầu tiên với cả 2 máy thì máy A và B có thời gian load gần như tương tự nhau, không chênh lệch nhau nhiều. Thực tế thì với mô hình gpt-oss-20b với máy B thì LM Studio báo rằng nó có thể không chạy ngon vì giới hạn VRAM của GPU, trong khi máy A thì hỗ trợ full load GPU cho mô hình này.

Và bởi vì có những sự khác biệt trong việc xử lý, bắt buộc phải có sự điều chỉnh, ví dụ: máy B mặc dù có GPU rời là RTX 5060 nhưng dung lượng VRAM chỉ là 8GB, nó không đủ để chạy full model nên mình đưa qua CPU xử lý để có được tốc độ nhanh hơn, GPU chỉ bổ trợ một phần. Trong thiết lập cài đặt của LM Studio đối với những mẫu laptop sử dụng GPU của NVIDIA thì sẽ có thêm tùy chọn "Limit Model offload to Dedicated GPU Memory".

Thực tế khi sử dụng thì nếu đẩy hết vào GPU thì VRAM chỉ 8GB khiến cho nó xử lý rất lâu cho một câu prOmpt, có khi hơn 30 phút. Còn khi chuyển qua CPU thì thời gian rút ngắn xuống dưới 2 phút, sử dụng 100% CPU.

Thử nghiệm gpt-oss-20b trên laptop Windows

Chắt lọc thông tin từ file tài liệu

Mình cũng upload 2 file tài liệu giống như mình test với MacBook Air M3, yêu cầu nó trích xuất thông tin mà mình cần, với cả ba máy mình đều thiết lập những thông số phù hợp, có những thông số giống nhau như context length là 8096, EBS là 256, Temp là 0.8 và Reasoning Effort đều ở mức high.
Screenshot 2025-08-12 165759.png

Kết quả là máy A đưa ra kết quả chính xác, chắt lọc đúng với mong muốn của mình mặc dù nó không liệt kê đầy đủ tất cả các tựa game được benchmark vì giới hạn context nhưng nó biết đâu là thông số của RTX 5070 Ti, đâu là thông số của Radeon RX 9070 XT.

Còn với máy B thì đưa thông số bị sai, mình thử lại nhiều lần nhưng kết quả vẫn không thay đổi. Về thời gian xử lý, máy A cho tốc độ 16.71 tok/sec, mất ~10.51 giây để có frist token. Còn máy B thì cho tốc độ 14.74 tok/sec và ~17.66 giây để có frist token.

Tạo kịch bản từ file tài liệu

Mình tiếp tục upload 2 file tài liệu và yêu cầu nó tạo kịch bản quay video thời lượng tối đa 10 phút để giới thiệu về máy tính trang bị RTX 50 Series, đầy đủ 3 phần: Intro, nội dung chính và phần kết thúc.
Screenshot 2025-08-13 182618.png

Máy A vẫn cho kết quả đúng với ý của mình hơn, mặc dù outline vẫn chưa thực sự chi tiết, cũng có những ghi chú thêm cho mình khi quay khi nhấn mạnh vào DLSS 4 và Multi Frame Gen là hai công nghệ nổi bật nhất khi nhắc đến RTX 50 Series, cũng như nó đưa ra đề xuất về định dạng cho mình, chia bố cục làm sao để hợp lý.

12.53 tok/sec và 7.21 giây cho frist token cũng không đến nỗi tệ. Đối với máy B, tốc độ 14.5 tok/sec và 17.22 giây cho frist token thì một lần nữa AMD Ryzen AI 300 Series thể hiện hiệu quả tốt hơn, mặc dù máy A không phải là một chiếc laptop gaming.

Screenshot 2025-08-13 182730.png

Thử tiếp thêm một lần nữa nhưng không phải là file tài liệu mà mình ném cho mô hình một bài viết, copy toàn bộ phần text quăng vào khung chat và yêu cầu nó tạo kịch bản video unbox sản phẩm. Khi không có phải truy vấn vào file tài liệu thì mô hình xử lý rất nhanh, chưa tới 1 phút và kết quả cho ra là kịch bản của một video ngắn, độ dài khoảng tầm 3 phút. Nếu mình chi tiết hơn về kịch bản thì nó có thể cho đúng ý mình hơn.

Ở khoản này thì cả hai máy đều làm tốt, với máy A là 14.56 tok/sec còn máy B là 16.08 tok/sec và 0.17 giây cho frist token.

Thử khả năng tóm tắt và lập luận

Bỏ vào 1 file tài liệu bài viết của mình nói về chuyện sạc pin và các lầm tưởng phổ biến, mình nhờ mô hình tóm tắt bài viết trong 2-3 câu và nêu ý chính. Kết quả thì máy A và B đều làm tốt, chủ yếu chúng ta thích câu trả lời nào hơn.
Screenshot 2025-08-12 185118.png

Với trường hợp này mình nghĩ rằng với các bạn học sinh sinh viên, các bạn có thể bỏ tài liệu của mình vào đây là tra cứu bằng mô hình, với một tài liệu học tập và khả năng hoạt động offline thì đây là thứ mà mình nghĩ rằng nó sẽ giúp ích tốt nhất cho người dùng.

Với khả năng lập luận, mình thử hỏi một câu hỏi giống như mình đã hỏi trên MacBook Air M3 trước đây, câu trả lời nhận được vẫn tốt và mình đánh giá có tính suy luận nhưng để suy luận giống như con người thì chưa. Mô hình vẫn suy luận theo logic toán học và cho rằng con gà biết bay. Thực tế thì con gà biết bay nhưng nó không thể bay cao và bay xa.

Mình thử đặt tiếp một câu hỏi mang tính suy nghĩ và đánh giá sâu hơn, mang khả năng suy luận và đưa ra kết luận không theo kiểu đúng hay sai mà dựa vào tình huống. Kết quả mình khá ấn tượng với gpt-oss-20b trong khả năng suy luận của nó, nó có thể đưa ra được các bước và nhiều tình huống vì sao chúng ta cần yêu thương và không nên yêu thương kẻ bạo hành, đồng thời chỉ ra rằng những trường hợp nào thì chúng ta không cần làm điều đó.

Thử khả năng sáng tạo

Mình nhờ mô hình viết một câu chuyện ngắn 100-150 từ với chủ đề "công nghệ thay đổi cuộc sống con người", kết quả câu chuyện cho ra trên máy A và cả máy B đều khá logic và thực tế, mô tả câu chuyện của một kỹ sư trẻ tuổi với những thiết bị công nghệ phục vụ đời sống xung quanh anh hay là câu chuyện về sự kết nối giữa mọi người ở khắp nơi trên thế giới. Các câu chuyện này có thể sử dụng được.

Tiếp mình muốn mô hình tạo cho mình một giao diện clone Excel với đầy đủ bố cục và có thể nhập số để tính toán đơn giản. Đây là một bài thử có lẽ là nặng nề nhất từ đầu đến giờ, thử khả năng lập trình ở mức cơ bản để xem kết quả có như mình mong đợi hay không.
Screenshot 2025-08-13 183220.png

Với máy A thì nó chỉ mất 1.9 giây để có frist token và tốc độ nhả chữ khá ấn tượng 14.22 tok/sec, nhưng kết quả mới là quan trọng thì mình có thử mở file HTML mà mô hình đã xây dựng thì nó chỉ đạt được yêu cầu ở mức kẻ bảng giống với giao diện của Excel mà thôi, chưa thể làm được các thanh công cụ, khả năng nhập liệu cũng như giao diện cũng không giống với Excel.
Screenshot 2025-08-13 183115.png

Với máy B cũng tương tự, nhưng cách nó phân tách ra các phần khác nhau rất rõ ràng, nếu muốn thì bạn cũng có thể nói nó gộp thành 1 file HTML duy nhất để có thể chạy được trên trình duyệt.

Thử khả năng tính toán

Những câu hỏi đơn giản để xem mô hình trả lời như thế nào, ví dụ bài toán phơi 10 bộ quần áo mất 1 giờ để khô và phơi 15 bộ trong cùng điều kiện thì mất bao lâu. Kết quả thì gpt-oss-20b trả lời đúng là 1 giờ trên cả hai máy, thời gian để "nhả" token đầu tiên đều dưới 2 giây.

Tiếp là bài toán đếm chữ trong một từ, do LLM có cách đếm khác biệt chúng ta nên ngày trước đa phần các mô hình sẽ trả lời sai, ví dụ từ "strawberry" có bao nhiêu chữ "r". Kết quả là gpt-oss-20b có thể trả lời đúng là 3 chữ, nhưng nếu Input một file tài liệu và kêu nó đếm số từ thì nó không thể làm được.

Tạm kết

So với thời điểm trước, hiện tại máy tính Windows đã sử dụng các mô hình LLM chạy trực tiếp trên máy khá là ổn, tuy nhiên có một số lưu ý mình nhận ra muốn chia sẻ với anh em:

Nền tảng AMD Ryzen AI 300 Series chạy gpt-oss-20b rất tốt, rất ngon, có thể nói là tiệm cận với MacBook Air luôn mặc dù máy tính Windows không sử dụng kiến trúc Unified Memory. Cái lợi hại của AMD Ryzen AI 300 Series ở chỗ nó là APU, đồng thời NPU của máy có thể tác động 1 phần vào quá trình tăng tốc. Trong quá trình chạy mình offload hoàn toàn cho GPU và Radeon 890M thực sự là làm mình ấn tượng.

Với các máy tính Windows, đặc biệt là laptop gaming có GPU rời nếu không có VRAM lớn, kinh nghiệm của mình là đẩy cho CPU xử lý sẽ nhanh hơn và hiệu quả hơn nhiều.
Khả năng code của gpt-oss-20b thực sự tốt với những nhu cầu đơn giản và cơ bản, tính toán không quá phức tạp.
Đừng kỳ vọng quá cao vào mô hình gpt-oss-20b bởi vì nó chỉ phù hợp cho máy tính mỏng, nhẹ, từ 16GB RAM trở lên thôi, thậm chí cả mô hình 120 tỷ tham số cũng chưa chắc đã phù hợp với nhu cầu sử dụng của bạn. Cách tốt nhất đó là bạn hãy thử các công việc của bạn thường làm với mô hình này của OpenAI vì nó miễn phí mà, cứ thử thoải mái.
Các mô hình chạy local này bị giới hạn về khả năng tìm kiếm thông tin thời gian thực, vì thế cần tra cứu gì cứ lên mô hình cloud sẽ tốt nhất.