ZeroEntropy , một startup thuộc YC W23 , gần đây đã phát hành các mô hình rerank-v3 sử dụng nguyên lý chấm điểm Elo của cờ vua để cải thiện độ chính xác của kết quả tìm kiếm. Thông báo này đã tạo ra cuộc thảo luận kỹ thuật sôi nổi trong cộng đồng nhà phát triển, đặc biệt xoay quanh thách thức cơ bản trong việc chấm điểm mức độ liên quan của tài liệu.
Cách tiếp cận của công ty giải quyết một vấn đề cốt lõi trong hệ thống tìm kiếm: làm thế nào để đo lường chính xác mức độ liên quan của một tài liệu đối với truy vấn của người dùng. Các phương pháp truyền thống yêu cầu con người hoặc hệ thống AI gán điểm tuyệt đối (như đánh giá 7 trên 10), nhưng điều này tạo ra dữ liệu không nhất quán và nhiễu.
Ưu thế của phương pháp so sánh theo cặp
Các thành viên cộng đồng đã thể hiện sự quan tâm mạnh mẽ đối với việc ZeroEntropy chuyển từ chấm điểm tuyệt đối sang so sánh theo cặp. Thay vì hỏi Tài liệu này có mức độ liên quan như thế nào?, hệ thống của họ hỏi Trong hai tài liệu này, tài liệu nào liên quan hơn?. Cách tiếp cận này dường như tạo ra kết quả nhất quán hơn nhiều.
Một số nhà phát triển trong cuộc thảo luận đã chia sẻ những trải nghiệm tương tự với phương pháp theo cặp. Một người lưu ý rằng khi sử dụng các mô hình ngôn ngữ lớn làm người đánh giá với tiêu chí tùy chỉnh, cách tiếp cận đánh giá nhị phân hoạt động tốt hơn nhiều so với việc cố gắng có được điểm số. Lý do rất đơn giản: việc so sánh trực tiếp hai thứ dễ dàng hơn nhiều đối với con người và AI so với việc gán một giá trị tuyệt đối một cách riêng lẻ.
Cộng đồng kỹ thuật cũng đã nhấn mạnh rằng so sánh theo cặp đưa ra ít giả định hơn về cấu trúc dữ liệu cơ bản, khiến chúng mạnh mẽ hơn cho các ứng dụng thực tế.
So sánh kỹ thuật: Chấm điểm theo cặp vs Chấm điểm tuyệt đối
- Chấm điểm tuyệt đối: Gán giá trị số (0-1) cho từng tài liệu riêng lẻ
- Chấm điểm theo cặp: So sánh trực tiếp hai tài liệu về mức độ liên quan tương đối
- Độ chính xác: Sự đồng thuận của LLM với con người >95% so với các bộ xếp hạng lại truyền thống 60-70%
- Giảm nhiễu: So sánh theo cặp giảm đáng kể sự biến động trong đánh giá
Các cách tiếp cận thay thế và nền tảng toán học
Cuộc thảo luận đã tiết lộ một số phương pháp thay thế mà các nhà phát triển đang khám phá. Một số thành viên cộng đồng đã chỉ ra thuật toán sắp xếp 2AFC (Two-Alternative Forced Choice) như một giải pháp khác cho cùng một vấn đề. Phương pháp này, ban đầu được phát triển để đánh giá hình ảnh y tế, sử dụng sắp xếp dựa trên so sánh thay vì tính toán Elo .
AFC khắc phục tất cả những vấn đề đó. Được rồi, bạn đã xếp hạng món ăn vặt này 8/10. Dựa trên cái gì? Và sau đó họ quay lại và nói 'thực ra tôi sẽ chuyển nó xuống 7'.
Đội ngũ ZeroEntropy đã cung cấp những hiểu biết chi tiết về cách tiếp cận toán học của họ, giải thích rằng hệ thống của họ mô hình hóa điểm liên quan cơ bản cho mỗi tài liệu, sau đó tính đến nhiễu tự nhiên xảy ra khi đưa ra đánh giá. Họ sử dụng Ước lượng Khả năng Tối đa để tìm ra những điểm ẩn có khả năng cao nhất giải thích các sở thích theo cặp được quan sát.
Tổng quan Pipeline Huấn luyện
- Lấy mẫu triplet với 500 triplet ngẫu nhiên cho mỗi truy vấn
- Huấn luyện reranker theo cặp sử dụng tập hợp 3 LLM
- Tính toán xếp hạng Elo (n=100 tài liệu cho mỗi truy vấn)
- Huấn luyện reranker theo điểm với hàm mất mát MSE
- Tinh chỉnh học tăng cường
Hiệu suất và ứng dụng thực tế
Cuộc thảo luận cộng đồng đã đề cập đến các mối quan tâm triển khai thực tế, đặc biệt xung quanh độ trễ và hỗ trợ đa ngôn ngữ. ZeroEntropy báo cáo rằng reranker của họ xử lý khoảng 12.665 byte trong khoảng 149 mili giây, điều này có vẻ cạnh tranh với các giải pháp hiện có.
Một số nhà phát triển đã chia sẻ kinh nghiệm của riêng họ khi sử dụng các cách tiếp cận reranking tương tự cho các ứng dụng khác nhau, từ lọc tuyển dụng đến tiếp thị outbound lạnh. Những trường hợp sử dụng thực tế này chứng minh khả năng áp dụng rộng hơn của các phương pháp so sánh theo cặp ngoài các tình huống tìm kiếm truyền thống.
Cuộc tranh luận kỹ thuật xung quanh cách tiếp cận của ZeroEntropy phản ánh sự thay đổi rộng lớn hơn trong cách các nhà phát triển nghĩ về chấm điểm mức độ liên quan. Khi các hệ thống tìm kiếm trở nên tinh vi hơn, cộng đồng dường như ngày càng quan tâm đến các phương pháp có thể nắm bắt sở thích tinh tế trong khi duy trì hiệu quả tính toán. Hệ thống Elo lấy cảm hứng từ cờ vua đại diện cho một hướng đi đầy hứa hẹn, mặc dù cuộc thảo luận cho thấy nhiều cách tiếp cận khả thi đang nổi lên trong lĩnh vực này.
Lưu ý: Elo đề cập đến hệ thống xếp hạng được tạo ra bởi Arpad Elo , không phải là từ viết tắt. 2AFC là viết tắt của Two-Alternative Forced Choice , một phương pháp mà đối tượng phải lựa chọn giữa chính xác hai tùy chọn.
Tham khảo: Improving Retrieval with ELO Scores