AI cho KYC và Xử lý tài liệu: Các Fintech Đông Nam Á xây dựng quy trình Onboarding như thế nào năm 2026
Cách các fintech khắp SEA dùng AI cho KYC, OCR và xác thực tài liệu năm 2026, từ việc kiểm tra KTP Indonesia đến thẻ CCCD Việt Nam.
AI cho KYC và Xử lý tài liệu: Các Fintech Đông Nam Á xây dựng quy trình Onboarding như thế nào năm 2026
Một ứng dụng cho vay tại Manila mà tôi theo dõi tháng trước đã mất tới 38% người dùng ngay tại bước xác thực thẻ PhilSys ID. Người dùng Philippines chụp ảnh thẻ dưới ánh đèn bếp, bị hệ thống OCR chung chung từ chối, và thế là họ đóng ứng dụng luôn. Đội ngũ phát triển đã chi 80.000 USD cho một nhà cung cấp KYC 'toàn cầu' nhưng lại nhận về một tỷ lệ từ chối cao ngất ngưởng, âm thầm giết chết sự tăng trưởng của họ.
Đây là bài toán nan giải trong quy trình onboarding của fintech Đông Nam Á (SEA) năm 2026. Các cơ quan quản lý tại Việt Nam, Indonesia và Philippines đã thắt chặt quy tắc KYC cùng lúc với việc kỳ vọng của người dùng ngày càng khắt khe (hầu hết người dùng sẽ bỏ cuộc nếu quy trình kéo dài quá 3 phút). Cách mà các đội ngũ vượt qua thử thách này là kết hợp AI xử lý tài liệu, xác thực sinh trắc học và các mô hình ngôn ngữ nhỏ để hỗ trợ. Dưới đây là những gì hầu hết các đội ngũ trong khu vực đang thực sự sử dụng.
Bước OCR âm thầm giết chết phễu người dùng của bạn
Điểm khởi đầu cho bất kỳ fintech SEA nào là việc đọc thẻ định danh quốc gia. Tại Việt Nam là CCCD, tại Indonesia là KTP, tại Philippines là PhilSys ID. Các API OCR chung chung thường gặp khó khăn với những loại thẻ này. Phông chữ trên thẻ KTP, bề mặt dập nổi dưới ánh sáng không tốt, hay các dấu tiếng Việt sẽ khiến các giải pháp phương Tây gặp lỗi thường xuyên hơn dự kiến.
Đây là nơi các đơn vị nội địa thắng thế. Tại Việt Nam, bộ giải pháp eKYC của FPT.AI bao phủ việc đọc CCCD và đối soát với dữ liệu từ Bộ Công An. Các ngân hàng Việt Nam hoạt động dưới sự hướng dẫn của Ngân hàng Nhà nước (SBV) thường ưu tiên loại hình tích hợp này vì nó kết nối trực tiếp với cơ sở dữ liệu chính phủ.
Tại Indonesia, GLAIR đã xây dựng sản phẩm chuyên biệt cho KTP và các loại giấy tờ xe. Hệ thống so khớp khuôn mặt và kiểm tra thực thể sống của họ được tinh chỉnh cho tông da và điều kiện ánh sáng của người Đông Nam Á.
Mức giá cho các bộ khung KYC doanh nghiệp này thường được báo giá riêng. Dự kiến khoảng 0,10 đến 0.30 USD cho mỗi lượt xác thực (khoảng 2.500 - 7.500 VNĐ). Với một fintech có 50.000 người dùng, con số này rơi vào khoảng 10.000 - 30.000 USD mỗi năm. Không hề nhỏ, nhưng vẫn rẻ hơn nhiều so với rủi ro gian lận hoàn tiền (chargeback).
Tại sao các fintech khu vực bắt đầu ngừng trả phí cho OpenAI
Sau khi người dùng đã vào hệ thống, ứng dụng AI tiếp theo là hỗ trợ trong ứng dụng và chấm điểm rủi ro. Các đội ngũ cần xử lý chat tiếng Việt, tiếng Thái hay tiếng Indonesia một cách chuẩn xác đang dần chuyển từ OpenAI sang các giải pháp khu vực.
SEA-LION, dòng mô hình ngôn ngữ lớn (LLM) mã nguồn mở từ AI Singapore, đã được xây dựng lại vào năm 2025 với khả năng đa phương thức và cửa sổ ngữ cảnh 256K. Nó xử lý tiếng Việt, Bahasa, Thái, Tagalog... một cách tự nhiên. Vì là mã nguồn mở, các fintech tại Việt Nam hay Indonesia có thể tự vận hành (self-host) và giữ dữ liệu khách hàng trên hạ tầng nội địa, điều này rất quan trọng đối với các quy định về lưu trữ dữ liệu trong nước.
Tại Thái Lan, Typhoon từ SCB 10X là giải pháp tương đương, được huấn luyện chuyên sâu trên các văn bản pháp lý và tài chính tiếng Thái. Các ngân hàng Thái Lan chạy chatbot nội bộ thường ưu tiên tinh chỉnh Typhoon hơn là dịch từ các mô hình ưu tiên tiếng Anh.
Sự khác biệt về chi phí là có thật: tự vận hành SEA-LION trên một chip A100 tốn khoảng 1.500 - 2.500 USD mỗi tháng, thấp hơn nhiều so với việc trả phí API theo token ở quy mô lớn.
Khoản chi phí ẩn không ai đưa vào bảng dự toán
Một phần việc khác không ai nhắc tới cho đến khi triển khai thực tế: đánh giá AI (AI evaluation). Nếu một chatbot định xử lý các câu hỏi của khách hàng Việt Nam, ai đó phải dán nhãn (label) hàng nghìn ví dụ để kiểm tra nó.
Datasaur, được sáng lập bởi các kỹ sư gốc Indonesia, tập trung mạnh vào các ngôn ngữ SEA ít tài nguyên. Các đội ngũ dùng nó để dán nhãn tập dữ liệu tiếng Việt, tiếng Bahasa hay tiếng Thái. So với Scale AI hay Labelbox, Datasaur hỗ trợ tốt các luồng công việc ngôn ngữ khu vực ngay từ đầu. Giá khởi điểm khoảng 417 USD/tháng (khoảng 10,5 triệu VNĐ).
Chi phí thực tế hàng năm của bạn
Một fintech Indonesia hoặc Việt Nam với 50.000 người dùng năm 2026 có thể tốn khoảng:
- Nhà cung cấp KYC (FPT.AI hoặc GLAIR): 20.000 USD/năm
- Vận hành LLM (kết hợp SEA-LION tự chạy và Claude cho các tác vụ cao cấp): 30.000 USD/năm
- Dán nhãn và đánh giá (Datasaur): 5.000 - 24.000 USD/năm
- Nhân sự kỹ thuật để tích hợp và bảo trì: 1 kỹ sư backend khoảng 30.000 - 45.000 USD/năm
Tổng cộng khoảng 100.000 USD mỗi năm (khoảng 2,5 tỷ VNĐ) cho một bộ khung AI hoàn chỉnh xử lý từ onboarding, hỗ trợ đến kiểm tra chất lượng. Với một fintech có doanh thu 2 triệu USD, con số này chiếm 5%. Mức chi này là hợp lý nếu nó giúp cắt giảm thiệt hại từ gian lận và chargeback.
Hai thứ mà các nhà sáng lập thường chi quá tay
Có hai mảng mà các fintech SEA thường lãng phí. Thứ nhất: dùng các nền tảng thị giác máy tính toàn cầu đồ sộ chỉ để làm OCR tài liệu đơn giản — FPT.AI hay GLAIR sẽ rẻ hơn Microsoft Form Recognizer cho các tài liệu nội địa. Thứ hai: thuê dán nhãn trên các nền tảng như Mechanical Turk cho dữ liệu tiếng Việt hay Bahasa, nơi chất lượng không đảm bảo; hãy trả tiền cho Datasaur hoặc dùng các đơn vị chuyên nghiệp tại địa phương thay thế.
Mô hình hiệu quả năm 2026 là: dùng nhà cung cấp KYC khu vực cho tài liệu, LLM SEA mã nguồn mở cho chat tiếng bản địa, LLM toàn cầu cho tiếng Anh và các lập luận phức tạp, và một công cụ dán nhãn dùng chung cho cả hai. Hầu hết các đội ngũ cố gắng xây dựng mọi thứ trên OpenAI cuối cùng đều phải điều chỉnh lại khi chi phí vượt ngưỡng 50.000 USD mỗi tháng.
Đối với các nhà sáng lập SEA đang xây dựng bất cứ thứ gì liên quan đến định danh hay tiền tệ, bộ khung này đang trở thành lựa chọn mặc định.