Apple hé lộ mô hình AI mới: Tạo văn bản nhanh như chớp, có thể sớm tích hợp trên iPhone
Trong một nghiên cứu mới, Apple đã giới thiệu mô hình ngôn ngữ mang tên Few-Step Discrete Flow-Matching (FS-DFM), hứa hẹn khả năng tạo văn bản dài nhanh hơn đến 128 lần so với các chatbot phổ biến hiện nay như GPT hay Grok. Đây là một bước tiến quan trọng, mở đường cho những tính năng AI mạnh mẽ, xử lý ngay trên thiết bị (on-device AI) trong tương lai.
Hầu hết các chatbot mà chúng ta đang sử dụng, từ ChatGPT đến Google Gemini, đều hoạt động theo phương pháp "autoregressive". Có thể hình dung phương pháp này giống như một người đang viết văn bản từng chữ một. Chúng tạo ra từ tiếp theo dựa trên những từ đã viết trước đó, rồi cứ thế lặp lại cho đến khi hoàn thành. Cách làm tuần tự này tuy đảm bảo sự mạch lạc nhưng lại vô tình tạo ra một giới hạn về tốc độ. Ngược lại, các mô hình Diffusion hoạt động theo một cách khác biệt hơn. Hãy tưởng tượng nó giống như việc phác thảo toàn bộ một bức tranh mờ ảo trước, sau đó mới dần dần làm sắc nét từng chi tiết. Mô hình này tạo ra một loạt từ ngữ cùng lúc, sau đó "tinh chỉnh" chúng qua nhiều bước để cho ra đoạn văn hoàn chỉnh.
Mô hình FS-DFM của Apple cũng làm tương tự: nó tạo ra một loạt từ ngữ (một bản nháp thô) cùng lúc, sau đó "tinh chỉnh" chúng qua nhiều bước để cho ra đoạn văn cuối cùng. Điểm đột phá ở đây là, trong khi các mô hình diffusion truyền thống cần hàng trăm, thậm chí hàng nghìn vòng lặp để làm "sắc nét" văn bản, công nghệ của Apple chỉ cần một số bước rất ít (few-step), đôi khi chỉ cần 8 vòng lặp là đã có thể cho ra kết quả chất lượng cao.
Để tối ưu hóa quá trình này, các nhà nghiên cứu của Apple đã áp dụng một phương pháp huấn luyện gồm ba bước: Đầu tiên, mô hình được "dạy" cách hoạt động hiệu quả với các "ngân sách" vòng lặp khác nhau (tức là giới hạn số lần được phép tinh chỉnh). Sau đó, họ sử dụng một mô hình lớn hơn, mạnh hơn đóng vai trò "giáo viên" để hướng dẫn, giúp mô hình chính học hỏi và đưa ra các bản cập nhật chính xác hơn trong mỗi vòng lặp. Và cuối cùng, họ áp dụng các kỹ thuật để đảm bảo kết quả đầu ra luôn nhất quán và chất lượng, ngay cả khi chỉ thực hiện trong vài bước tinh chỉnh.
![[IMG]](https://photo2.tinhte.vn/data/attachment-files/2025/10/8865280_fs-dfm-entropy-perplexity-benchmark.webp)
Khi so sánh, FS-DFM tỏ ra vượt trội hơn các mô hình Diffusion khác ở hai chỉ số quan trọng là độ phức tạp và "entropy". Có thể hiểu nôm na, "entropy" là thước đo mức độ sáng tạo và ngẫu nhiên của văn bản. Nếu entropy quá thấp, văn bản sẽ trở nên nhàm chán, lặp đi lặp lại. Nếu quá cao, văn bản sẽ trở nên vô nghĩa. So với các dòng diffusion model lớn (Dream 7B, LLaDA 8B), các phiên bản FS-DFM “nhẹ” (chỉ 1.7B, 1.3B, 0.17B tham số) vẫn đạt hiệu quả tốt hơn về chất lượng văn bản và tốc độ, bất kể số lượt lặp refinement.
FS-DFM mở ra hướng đi mới cho các mô hình tạo văn bản AI: sinh ra văn bản dài chất lượng chỉ với vài lần xử lý, phù hợp với thiết bị hiệu năng vừa phải, không cần phần cứng mạnh. Apple và nhóm nghiên cứu dự kiến sẽ công khai mã nguồn, thông số mô hình để cộng đồng kiểm nghiệm, thử nghiệm tiếp tục.