Xây model AI ở Đông Nam Á đồng nghĩa với việc dữ liệu training của bạn nhiều khả năng là tiếng Việt, Thái, Bahasa Indonesia hay Tagalog. Đa số công cụ annotation trên top Google đầu tiên đều xây cho dataset tiếng Anh — và điều đó lộ rõ.
Chữ viết tay tiếng Thái. Địa chỉ tiếng Indonesia. Tên sản phẩm tiếng Việt. Transcript hỗ trợ khách hàng tiếng Filipino. Đây không phải edge case — đây là phần lõi của dữ liệu training, và gán nhãn cho đúng cần công cụ (và người) hiểu được ngữ cảnh bản địa.
Dưới đây là những thứ thật sự đang chạy được cho team ML SEA năm 2026.
Vì sao annotation ở SEA khác biệt
Xây model nhận diện hình ảnh cho kệ bán lẻ tại Thái Lan tức là phải xử bao bì tiếng Thái, thương hiệu Thái, chữ Thái. Train một model NLP trên dữ liệu chăm sóc khách hàng Indonesia tức là phải xử Bahasa kèm code-switching với tiếng Java hay tiếng lóng vùng miền. Còn ở Việt Nam, bạn phải xử tiếng Việt có dấu, các teencode kiểu "k", "đc", "ko" rồi cả tên sản phẩm pha tiếng Anh kiểu "áo thun nam form rộng". Dùng nền tảng annotation toàn cầu mà route công việc về annotator Đông Âu hay Ấn Độ thì sinh ra hai vấn đề: độ chính xác giảm, và bạn vừa gửi dữ liệu kinh doanh nhạy cảm của địa phương ra nước ngoài.
Giải pháp thực tế mà đa số team ML SEA chốt: dùng nền tảng annotation có annotator bản địa, hoặc cấp công cụ để team tự gán nhãn in-house.
Công cụ đáng biết
DataWow (Bangkok, Thái Lan)
DataWow là một trong những nền tảng annotation hữu ích xây riêng cho thị trường Thái Lan và SEA. Sản phẩm chính Accurately phủ image labeling, NLP annotation, video và audio annotation — với đội ngũ human-in-the-loop có annotator nói tiếng Thái.
Với doanh nghiệp Thái nói riêng, DataWow lấp được khoảng trống mà các nền tảng toàn cầu không làm nổi. OCR tiếng Thái, trích xuất CCCD tiếng Thái, parse địa chỉ tiếng Thái thật sự khó — và team DataWow đã xây pipeline cho tất cả những thứ này. Sản phẩm Jott.ai trích xuất tài liệu của họ xử lý văn bản doanh nghiệp Thái với độ chính xác mà các tool document AI generic không có.
DataWow còn nhận cả delivery dự án AI trọn gói, hữu ích cho doanh nghiệp Thái muốn xây năng lực AI nhưng chưa có team ML nội bộ. Phí dự án thường rơi vào tầm 150.000-500.000 baht cho một engagement annotation và bàn giao model. Với công ty bắt đầu từ con số 0, phí này thường rẻ hơn thuê hẳn một team ML.
Datasaur (được team SEA dùng nhiều)
Datasaur là nền tảng annotation thiên về developer, được nhiều startup SEA dùng. Khác với mô hình full-service của DataWow, Datasaur chủ yếu self-serve — bạn tự mang annotator vào hoặc dùng marketplace của họ. Nó xử text annotation tốt, hỗ trợ ổn dataset đa ngôn ngữ bao gồm cả Bahasa Indonesia và tiếng Việt.
Giá từ 25 USD/tháng/user (khoảng 625.000 VNĐ/tháng). Với team ML 5 người làm NLP annotation, đây là một trong những lựa chọn tối ưu chi phí.
Scale AI và Labelbox (toàn cầu, nhưng SEA cũng dùng)
Scale AI và Labelbox là cá mập của thị trường annotation toàn cầu. Vài công ty công nghệ lớn ở Singapore và Indonesia dùng cho một số workload nhất định — đặc biệt là annotation computer vision khối lượng lớn. Hợp đồng enterprise bắt đầu từ vài chục nghìn USD, mạng lưới annotator của họ là toàn cầu, tạo ra vấn đề chất lượng cho dataset SEA mang tính siêu địa phương.
Nếu bạn là startup Việt Nam annotate dữ liệu tiếng Việt, Scale AI là quá thừa. Còn nếu là công ty Singapore annotate ảnh sản phẩm tiếng Anh ở quy mô lớn, đáng cân nhắc.
Vấn đề ngôn ngữ ít ai nhắc
Chất lượng annotation cho các ngôn ngữ SEA low-resource thật sự kém hơn trên đa số nền tảng. Số annotator được đào tạo cho tiếng Thái, Khmer, Burmese, Lào ít hơn nhiều so với tiếng Anh, Tây Ban Nha, hay kể cả Indonesia.
Model tiếng Việt và Thái cần chuyên gia. Lựa chọn của bạn: dùng nhà cung cấp nội địa (DataWow cho tiếng Thái, hệ sinh thái VinAI cho tiếng Việt), chạy annotation bằng team riêng, hoặc dự trù thêm vài vòng QA để đạt độ chính xác chấp nhận được.
Lỗi phổ biến của startup SEA: chọn nền tảng annotation toàn cầu giá rẻ, đạt 85% accuracy, rồi mất mấy tháng đoán xem vì sao model không chạy ngon trên production. Hóa ra vấn đề nằm ở chất lượng annotation từ đầu.
Cái gì đã thay đổi trong 2026
Một vài thứ chuyển dịch trong năm qua đáng để biết.
AutoML annotation thực sự dùng được rồi. Các công cụ như Accurately của DataWow và AI-assisted labeling của Datasaur có thể pre-label dữ liệu để con người review thay vì gán nhãn từ đầu. Việc này cắt thời gian annotation 40-60% cho các task phổ biến như bounding box hay phân loại sentiment. Đáng bật nếu nền tảng của bạn có hỗ trợ.
Synthetic data ngày càng khả thi cho SEA. Vài lab AI ở Singapore giờ cung cấp synthetic data cho use case SEA — ảnh sản phẩm Thái tổng hợp, transcript chăm sóc khách hàng Indonesia tổng hợp. Vẫn đang trưởng thành, nhưng để bootstrap model khi bạn gần như không có dữ liệu đã gán nhãn, đây thành một lựa chọn thật sự.
Vấn đề tuân thủ pháp lý bản địa quan trọng hơn trước. Nghị định bảo vệ dữ liệu cá nhân của Việt Nam (PDPD), PDPA của Indonesia và Thái Lan đều có hệ quả tới chuyện gửi dữ liệu đi đâu để annotate. Nếu dữ liệu annotation có thông tin cá nhân — mà ảnh khách, giấy tờ, transcript thường là vậy — route qua nền tảng nước ngoài tạo rủi ro tuân thủ. Nhà cung cấp annotation nội địa với data residency tại địa phương ngày càng là lựa chọn an toàn hơn.
Khuyến nghị thực tế
Doanh nghiệp Thái xây model AI đầu tiên: bắt đầu với DataWow. Mô hình full-service giảm ma sát nội bộ, team bản địa hiểu cách dữ liệu doanh nghiệp Thái thật sự vận hành.
Startup Singapore hay Indonesia có team ML in-house: Datasaur hoặc Label Studio (mã nguồn mở) cho text và NLP annotation. Computer vision quy mô lớn thì Labelbox xứng tiền nếu dữ liệu chủ yếu tiếng Anh.
Với bất kỳ team nào annotate dữ liệu có thông tin cá nhân — mặt người, giấy tờ, địa chỉ — hãy giữ dữ liệu trong nước. Đừng route qua nền tảng nước ngoài khi chưa có DPA và đội pháp lý chốt.
Bài toán annotation không biến mất khi AI trưởng thành — ngược lại càng quan trọng hơn khi model ngày càng chuyên biệt. Chọn đúng nền tảng từ sớm giúp bạn khỏi làm lại từ đầu sau này.