Lời hứa về các công cụ phân tích dữ liệu được hỗ trợ bởi AI đã thu hút sự chú ý trên toàn ngành công nghệ, nhưng các nhà phát triển làm việc trên những hệ thống này đang phát hiện ra rằng khoảng cách giữa các demo ấn tượng và các giải pháp sẵn sàng cho sản xuất rộng hơn nhiều so với dự kiến. Các cuộc thảo luận gần đây giữa các chuyên gia thực hành cho thấy việc tạo ra những AI data analysts thực sự hữu ích đòi hỏi giải quyết các vấn đề phức tạp vượt xa những truy vấn cơ sở dữ liệu đơn giản.
Vấn đề giới hạn của Text-to-SQL
Trong khi nhiều công cụ phân tích dữ liệu AI bắt đầu với việc chuyển đổi text-to-SQL làm nền tảng, cách tiếp cận này nhanh chóng gặp phải rào cản khi xử lý các câu hỏi kinh doanh thực tế. Những truy vấn đơn giản như hiển thị doanh thu theo thời gian có thể hoạt động tốt cho các cuộc trình diễn, nhưng phân tích kinh doanh thực tế đòi hỏi hiểu biết về bối cảnh, mối quan hệ giữa các nguồn dữ liệu khác nhau, và các phép tính phức tạp trải rộng trên nhiều hệ thống.
Cộng đồng đã ghi nhận một mô hình lặp lại nơi các công cụ dữ liệu AI xuất sắc trong việc tổng hợp cơ bản nhưng gặp khó khăn với phân tích nhiều bước có sắc thái mà doanh nghiệp thực sự cần. Hạn chế này trở nên đặc biệt rõ ràng khi người dùng đặt những câu hỏi đòi hỏi kiến thức chuyên môn hoặc hiểu biết về cách các chỉ số kinh doanh khác nhau liên quan với nhau.
Thách thức về tài liệu và chất lượng dữ liệu
Một rào cản đáng kể mà các nhà phát triển liên tục gặp phải là tình trạng tài liệu dữ liệu kém trong hầu hết các tổ chức. Nhiều công ty thiếu metadata phù hợp, dòng dữ liệu rõ ràng, hoặc thậm chí là tài liệu cơ bản về những gì các bảng cơ sở dữ liệu của họ chứa.
Ai đó ở đâu đó phải xem xét từng bảng và trường và ghi chép nó đến từ đâu, khi nào, và nó thực sự có nghĩa gì. Rất rất ít nơi làm điều này.
Thực tế này tạo ra một vấn đề con gà và quả trứng cho AI data analysts. Các hệ thống cần các lớp ngữ nghĩa có cấu trúc tốt để hoạt động hiệu quả, nhưng hầu hết các tổ chức chưa đầu tư vào việc tạo ra những yếu tố nền tảng này. Ngay cả trong các công ty công nghệ, tài liệu dữ liệu toàn diện vẫn hiếm, khiến cho việc các hệ thống AI cung cấp phân tích chính xác và có ý nghĩa trở nên khó khăn.
Các Điểm Lỗi Thường Gặp Đã Xác Định:
- Ảo giác trong các truy vấn được tạo ra
- Thiếu hoặc sai sót trong việc diễn giải ngữ cảnh
- Mã code được tạo ra quá phức tạp
- Vấn đề độ trễ trong các quy trình nhiều bước
- Xử lý ý định người dùng không rõ ràng
- Khoảng trống về chất lượng dữ liệu và tài liệu
Semantic Layers như nền tảng còn thiếu
Giải pháp đang được chú ý bao gồm việc xây dựng các lớp mô hình ngữ nghĩa nằm giữa các truy vấn ngôn ngữ tự nhiên và dữ liệu thô. Những lớp này mã hóa logic kinh doanh, định nghĩa mối quan hệ giữa các nguồn dữ liệu, và cung cấp bối cảnh mà các hệ thống AI cần để tạo ra kết quả chính xác.
Các công cụ như Malloy (được đề cập như MeltDB trong một số cuộc thảo luận) đang nổi lên như những cách để tạo ra những nền tảng ngữ nghĩa này. Tuy nhiên, việc triển khai những hệ thống này đòi hỏi công việc trước đáng kể để lập bản đồ logic kinh doanh và mối quan hệ dữ liệu - công việc mà nhiều tổ chức chưa ưu tiên.
Cách tiếp cận Multi-Agent và thực tế sản xuất
Các nhà phát triển đang phát hiện ra rằng AI data analysts sản xuất cần phối hợp nhiều thành phần chuyên biệt thay vì dựa vào một mô hình ngôn ngữ lớn duy nhất. Điều này bao gồm các agent riêng biệt để hiểu ý định người dùng, truy xuất bối cảnh liên quan, tạo mã, và xác thực kết quả.
Các thách thức kỹ thuật mở rộng vượt ra ngoài việc chỉ tạo ra các truy vấn SQL để bao gồm tạo mã Python, tạo biểu đồ, tích hợp với các nguồn dữ liệu bên ngoài, và duy trì tính nhất quán trên các loại phân tích khác nhau. Mỗi thành phần này giới thiệu các điểm lỗi tiềm năng cần được quản lý trong môi trường sản xuất.
Các thành phần kỹ thuật chính cho nhà phân tích dữ liệu AI sản xuất:
- Lớp mô hình hóa ngữ nghĩa (sử dụng các công cụ như Malloy/MeltDB )
- Hệ thống điều phối đa tác nhân
- Truy xuất và quản lý ngữ cảnh
- Tạo mã cho SQL và Python
- Tạo biểu đồ và trực quan hóa
- Tích hợp nguồn dữ liệu bên ngoài
- Hệ thống xác thực và xử lý lỗi
![]() |
---|
Biểu đồ cột này minh họa sự khác biệt về hiệu suất của các mô hình AI khác nhau trong việc tuân theo hướng dẫn chuyên biệt theo lĩnh vực, làm nổi bật sự phức tạp của các phương pháp đa tác nhân trong phân tích dữ liệu AI |
Mô hình Context và Tools
Một insight quan trọng nổi lên từ cộng đồng nhà phát triển là bối cảnh và công cụ phù hợp thực sự là sản phẩm cốt lõi, không chỉ là các yếu tố hỗ trợ. Các thành phần AI hoạt động tốt nhất khi chúng có không gian tìm kiếm hẹp, được định nghĩa rõ và các ràng buộc rõ ràng để hoạt động trong đó.
Cách tiếp cận này đòi hỏi suy nghĩ lại cách các công cụ phân tích dữ liệu AI được xây dựng - tập trung trước tiên vào việc tạo ra các nền tảng ngữ nghĩa mạnh mẽ và sau đó xếp lớp các khả năng AI lên trên, thay vì bắt đầu với các mô hình ngôn ngữ lớn và hy vọng chúng có thể tự tìm ra bối cảnh.
Các cuộc thảo luận cho thấy rằng trong khi công nghệ cho phân tích dữ liệu được hỗ trợ bởi AI tiếp tục cải thiện, những thách thức thực sự nằm trong công việc nền tảng của việc tổ chức và ghi chép dữ liệu theo những cách mà các hệ thống AI có thể sử dụng hiệu quả. Thành công trong lĩnh vực này đòi hỏi tập trung nhiều vào thiết kế kỹ thuật dữ liệu và quy trình kinh doanh cũng như khả năng mô hình AI.
Tham khảo: Lessons on building an AI data analyst