Cộng đồng machine learning đang vật lộn với một sự thay đổi khó hiểu trong cách các mô hình embedding hiện đại xử lý độ tương đồng ngữ nghĩa. Điều bắt đầu như một cuộc thảo luận kỹ thuật về số chiều embedding đã phát triển thành một cuộc tranh luận rộng hơn về việc liệu lớn hơn có thực sự tốt hơn khi nói đến hiểu biết văn bản.
Bí ẩn điểm số tương đồng
Các nhà phát triển đã làm việc với cả mô hình embedding cũ và mới đều nhận thấy điều gì đó kỳ lạ. Trong khi các mô hình trước đây như Universal Sentence Encoder và BERT cung cấp điểm số cosine similarity trải rộng trên phạm vi 0-1, các embedding hiện đại của OpenAI dường như nén hầu hết kết quả vào một dải hẹp hơn nhiều xung quanh 0.2. Điều này khiến nhiều người tự hỏi liệu những mô hình mới hơn, đắt tiền hơn này có thực sự tệ hơn trong việc xác định độ tương đồng ngữ nghĩa.
Vấn đề không nhất thiết nằm ở chính các giá trị tuyệt đối, mà là ở những gì chúng đại diện. Các cuộc thảo luận cộng đồng cho thấy định nghĩa về tương đồng đã phát triển khi các mô hình trở nên phức tạp hơn. Các embedding hiện đại có thể coi văn bản tương đồng dựa trên định dạng, cú pháp hoặc phong cách viết, thay vì ý nghĩa ngữ nghĩa thuần túy. Điều này có nghĩa là hai bài viết hoàn toàn không liên quan vẫn có thể được chấm điểm tương đồng nếu chúng chia sẻ các đặc điểm cấu trúc.
Cosine similarity: Một thước đo toán học xác định mức độ tương đồng của hai vector, với 1 là giống hệt nhau và 0 là hoàn toàn khác biệt.
Các Cân nhắc Kỹ thuật Chính
- Các attention head yêu cầu số chiều embedding phải chia hết đều
- Kích thước sub-embedding phổ biến cho mỗi attention head: 64 chiều
- Các embedding hiện đại thường nén điểm tương đồng về phạm vi hẹp hơn (~0.2) so với các mô hình cũ (phạm vi 0-1)
- Học biểu diễn Matryoshka cho phép cắt bớt tới 50% số chiều trong khi vẫn duy trì hiệu suất
![]() |
---|
Các embedding phản ánh các chủ đề cảm xúc và nhận thức, minh họa sự phức tạp của sự tương đồng ngữ nghĩa trong các mô hình hiện đại |
Cuộc đua chiều lớn
Thế giới embedding đã chứng kiến sự tăng trưởng đáng kể trong những năm gần đây. Điều bắt đầu như các mô hình 200-300 chiều trong những ngày đầu đã bùng nổ thành những quái vật 4096 chiều. Sự tăng trưởng này phản ánh xu hướng rộng hơn trong AI nơi các mô hình lớn hơn thường thống trị các benchmark, ngay cả khi lợi ích thực tế trở nên đáng ngờ.
Cộng đồng chia rẽ về việc liệu sự lạm phát chiều này có hợp lý hay không. Một số cho rằng đây là trường hợp điển hình của việc sử dụng nhiều tài nguyên hơn chỉ vì chúng có sẵn, tương tự như cách các mô hình ngôn ngữ lớn tiếp tục phát triển mặc dù lợi nhuận giảm dần. Những người khác chỉ ra rằng các embedding rộng hơn có thể trở thành nút thắt cổ chai trong mạng neural, hạn chế khả năng xử lý thông tin của mô hình.
Các phát triển gần đây cho thấy ngành công nghiệp có thể đang đạt đến điểm chuyển mình. EmbeddingGemma mới được phát hành của Google đã vượt trội hơn các mô hình 4096 chiều trong khi chỉ sử dụng 768 chiều, chứng minh rằng huấn luyện thông minh hơn có thể đánh bại việc mở rộng quy mô bằng sức mạnh thô.
Dimensions: Số lượng đặc trưng số được sử dụng để đại diện cho mỗi đoạn văn bản hoặc dữ liệu trong không gian embedding.
Dòng thời gian phát triển số chiều embedding
- Các mô hình đầu tiên ( Word2Vec , GloVE ): ~300 chiều
- BERT (2018): 768 chiều với 12 attention heads
- OpenAI embeddings: 1536 chiều
- Các mô hình hiện tại ( Qwen-3 ): Lên đến 4096 chiều
- Google EmbeddingGemma : 768 chiều (vượt trội hơn các mô hình lớn hơn)
Tác động thực tế đối với nhà phát triển
Đối với các nhà phát triển xây dựng ứng dụng thực tế, những thay đổi này tạo ra cả cơ hội và thách thức. Sự chuyển hướng sang các embedding dựa trên API có nghĩa là các nhóm không còn cần huấn luyện mô hình riêng, nhưng họ cũng có ít quyền kiểm soát hơn về cách tính toán độ tương đồng. Điều này có thể gây vấn đề khi ý tưởng về độ tương đồng của mô hình không phù hợp với nhu cầu cụ thể của ứng dụng.
Nếu mô hình embedding chưa được huấn luyện trên dữ liệu bạn quan tâm, thì độ tương đồng có thể bị chi phối bởi các đặc trưng bạn không quan tâm.
Giải pháp thường nằm ở việc hiểu loại độ tương đồng nào quan trọng cho từng trường hợp sử dụng. Các hệ thống truy xuất tài liệu có thể hưởng lợi từ các embedding nhận biết định dạng, trong khi các ứng dụng tìm kiếm ngữ nghĩa có thể cần các mô hình được huấn luyện đặc biệt cho độ tương đồng dựa trên ý nghĩa. Một số nhóm đang tìm thấy thành công với việc tinh chỉnh theo miền cụ thể, có thể khôi phục các phạm vi độ tương đồng rộng hơn giúp kết quả dễ diễn giải hơn.
Sự phát triển liên tục của công nghệ embedding phản ánh sự trưởng thành rộng hơn của các hệ thống AI. Khi những công cụ này trở nên dễ tiếp cận hơn thông qua các API và nền tảng, thách thức chuyển từ xây dựng công nghệ sang hiểu cách sử dụng nó một cách hiệu quả. Các cuộc thảo luận của cộng đồng xung quanh điểm số tương đồng và kích thước chiều nhấn mạnh tầm quan trọng của việc khớp đúng công cụ với vấn đề cụ thể.
Tham khảo: How big are our embeddings now and why?