← Blog·AI ToolsMay 3, 2026· vi

LLM tiếng Việt năm 2026: VinAI, PhoGPT và lý do tại sao tự vận hành (Self-hosting) lại thắng thế

Tại sao các công ty fintech Việt Nam năm 2026 ưu tiên tự vận hành PhoGPT và PhoBERT của VinAI thay vì dùng GPT-4 — bài toán về tuân thủ, chi phí và ngôn ngữ.

LLM tiếng Việt năm 2026: VinAI, PhoGPT và lý do tại sao tự vận hành (Self-hosting) lại thắng thế

Tại một công ty fintech ở Hà Nội vào tháng 3 năm 2026, một kỹ sư vừa mở bảng điều khiển chi phí của OpenAI và bàng hoàng: 380 triệu VNĐ tiền phí API chỉ trong một tháng, gần gấp ba lần ngân sách dự kiến của cả đội. Sáu tuần trước đó, họ đã kết nối chatbot hỗ trợ khách hàng tiếng Việt của mình với GPT-4o. Con số trong bản kế hoạch ban đầu rất đẹp, nhưng nó đã sụp đổ ngay khi lưu lượng khách hàng thực tế ập đến. Đến khi bộ phận pháp chế cảnh báo về việc chuyển dữ liệu xuyên biên giới theo các quy định mới của Ngân hàng Nhà nước (SBV), đội ngũ kỹ thuật đã phải tức tốc viết lại hệ thống dựa trên một bản cài đặt PhoGPT tự vận hành (self-hosted) tại một trung tâm dữ liệu ở TP.HCM.

Kịch bản đó đang lặp lại khắp các doanh nghiệp fintech và thương mại điện tử Việt Nam trong năm 2026. Ngân hàng Nhà nước và Bộ Thông tin & Truyền thông đã siết chặt các quy định về chuyển dữ liệu xuyên biên giới. Bất kỳ nền tảng nào xử lý dữ liệu khách hàng Việt Nam đều được yêu cầu lưu trữ dữ liệu đó trên hạ tầng trong nước. Việc gọi các đầu cuối (endpoint) GPT-4 đặt tại Mỹ với các cuộc trò chuyện của khách hàng Việt nay trở thành một rủi ro về tuân thủ pháp lý lẫn ngân sách.

Tin tốt là hệ sinh thái AI Việt Nam năm 2026 đã đủ trưởng thành để việc tự vận hành không còn là một dự án nghiên cứu xa vời. Dưới đây là bộ khung thực tế.

Điểm xuất phát: PhoGPT và PhoBERT của VinAI

VinAI (phòng nghiên cứu tại Hà Nội do Vingroup tài trợ) đã thực hiện phần việc khó khăn nhất là huấn luyện các mô hình ưu tiên tiếng Việt. Hai sản phẩm mã nguồn mở chủ lực của họ là nền tảng mà hầu hết các đội ngũ đang sử dụng.

  • PhoBERT: Một biến thể BERT tiếng Việt đã trở thành tiêu chuẩn cho việc nhận dạng thực thể (NER), phân loại ý định và phân tích cảm xúc từ năm 2020. Phiên bản PhoBERT-v2 năm 2025 đã cải thiện đáng kể hiệu suất trên các văn bản pháp lý và tài chính Việt Nam.
  • PhoGPT: Là đối trọng về AI tạo sinh. Phiên bản PhoGPT-7B5 hiện tại có khả năng thực hiện chỉ dẫn tiếng Việt tương đương với Llama-7B và vượt trội hơn hẳn các mô hình ưu tiên tiếng Anh trong việc xử lý các dấu thanh, ranh giới âm tiết và nhịp điệu câu từ vốn thường bị các bộ mã hóa (tokenizer) phương Tây làm sai lệch.

Cả hai đều có trọng số mở (open-weights) với giấy phép cho phép sử dụng rộng rãi. Một đội ngũ nhỏ có thể tải về từ Hugging Face, chạy trên một card đồ họa A100 hoặc 4090 đơn lẻ và có ngay một mô hình tinh chỉnh cho tiếng Việt phục vụ các yêu cầu chỉ trong một buổi chiều.

Câu chuyện về chi phí

Một công ty fintech Việt Nam phục vụ 200.000 khách hàng thường gặp bài toán kinh tế tương tự: Gọi GPT-4o cho hỗ trợ khách hàng với lưu lượng trung bình tốn khoảng 8.000 - 15.000 USD/tháng phí API. Tự vận hành PhoGPT-7B5 trên một node A100 (khoảng 35-50 triệu VNĐ/tháng nếu thuê hạ tầng GPU tại Việt Nam) xử lý khối lượng công việc tương đương với chất lượng tiếng Việt không hề kém cạnh. Điểm hòa vốn đến rất nhanh.

Đối với các tổ chức chịu sự quản lý của Ngân hàng Nhà nước, tự vận hành cũng loại bỏ rào cản xuất khẩu dữ liệu. Tin nhắn của khách hàng không bao giờ rời khỏi trung tâm dữ liệu tại Việt Nam.

Khi nào VinAI là chưa đủ

PhoGPT cực kỳ xuất sắc về độ lưu loát tiếng Việt nhưng vẫn kém hơn GPT-4 hay Claude ở các mảng:

  • Lập luận đa ngôn ngữ (chuyển đổi giữa tiếng Việt, tiếng Anh và mã nguồn).
  • Truy xuất ngữ cảnh dài (long-context) trên các kho tài liệu khổng lồ.
  • Sử dụng công cụ (tool use) và gọi hàm (function calling) trong các quy trình AI agent.

Mô hình mà hầu hết các đội ngũ Việt Nam lựa chọn năm 2026 là Hybrid (Hỗn hợp): Dùng PhoGPT cho các cuộc trò chuyện tuyến đầu, phân loại ý định và các luồng hỗ trợ chuẩn. Điều hướng các yêu cầu phức tạp — liên quan đến hợp đồng tiếng Anh, lập trình hoặc phân tích định lượng — sang Claude hoặc GPT-4o với các biện pháp tối thiểu hóa dữ liệu (không gửi thông tin cá nhân khách hàng trong yêu cầu).

Một bộ khung thực tế năm 2026 cho Fintech Việt Nam

  • PhoGPT-7B5 tự vận hành trên hạ tầng trong nước: khoảng 35-50 triệu VNĐ/tháng.
  • vLLM làm máy chủ suy luận, FastAPI làm giao diện: miễn phí.
  • FPT.AI eKYC để xác thực căn cước công dân (CCCD): phí theo lượt xác thực.
  • Claude hoặc GPT-4o chỉ dành cho các luồng lập luận phức tạp bằng tiếng Anh: khoảng 1.500 - 3.000 USD/tháng.

Tổng cộng: khoảng 5.000 - 8.000 USD/tháng cho một bộ khung AI vừa giữ được dữ liệu khách hàng trong nước, vừa tận dụng được sức mạnh của các mô hình toàn cầu. So với việc dùng 100% GPT-4 (tốn 12.000 - 25.000 USD/tháng cho cùng lưu lượng), giải pháp này tiết kiệm đủ ngân sách để thuê thêm một kỹ sư cấp cao.

Những gì là dư thừa với hầu hết các đội ngũ

Nếu lưu lượng AI tiếng Việt của bạn dưới 10.000 tin nhắn mỗi tháng, đừng tự vận hành. Chi phí quản lý hạ tầng và nhân sự vận hành sẽ không đáng. Hãy dùng API PhoGPT được host sẵn hoặc dùng Claude với các biện pháp bảo mật dữ liệu. Tự vận hành chỉ thực sự mang lại ROI khi lưu lượng đủ lớn để bù đắp chi phí thuê GPU và sự tập trung của kỹ sư.

Các nhà sáng lập SaaS tiếng Việt chiến thắng năm 2026 là những người ưu tiên mô hình nội địa ngay từ đầu, chấp nhận các API đám mây phương Tây là phương án dự phòng và thiết kế luồng dữ liệu xoay quanh kỳ vọng về chủ quyền dữ liệu của Ngân hàng Nhà nước ngay từ ngày đầu tiên.

AILLMVietnameseVinAIPhoGPTself-hostedVietnam