Đánh giá thực tế của một nhà phát triển về 11 mô hình ngôn ngữ lớn sử dụng 130 truy vấn cá nhân đã khơi dậy cuộc thảo luận cộng đồng về những gì thực sự quan trọng khi chọn công cụ AI cho việc sử dụng hàng ngày. Khác với các tiêu chuẩn đánh giá học thuật tập trung vào các tác vụ suy luận phức tạp, đánh giá này đã kiểm tra các mô hình trên những câu hỏi thực tế về lập trình, quản trị hệ thống và kiến thức tổng quát.
Các Danh Mục Mô Hình Được Kiểm Tra:
- Lập Trình: Viết script Bash , lập trình Python
- Quản Trị Hệ Thống: Chuyển tiếp cổng, cấu hình mạng
- Giải Thích Kỹ Thuật: Các khái niệm mạng trung tâm dữ liệu
- Kiến Thức Tổng Quát: Yêu cầu công thức nấu ăn, các nhiệm vụ viết sáng tạo
![]() |
---|
Tài liệu này tóm tắt việc đánh giá các LLMs cho mục đích sử dụng cá nhân, nêu bật các danh mục thiết yếu và các ví dụ được đánh giá trong nghiên cứu |
Tốc Độ Nổi Lên Như Yếu Tố Phân Biệt Chính
Đánh giá cho thấy rằng Gemini 1.5 Flash của Google liên tục đưa ra phản hồi nhanh nhất trong tất cả các danh mục. Các thành viên cộng đồng đã lặp lại phát hiện này, với người dùng ca ngợi sự kết hợp giữa tốc độ, khả năng chi trả và khả năng đa phương thức của Flash. Khả năng xử lý 1 triệu token ngữ cảnh trong khi duy trì độ trễ thấp khiến nó đặc biệt hấp dẫn cho các tác vụ xử lý tài liệu.
Một số người dùng báo cáo đã chạy hàng chục nghìn truy vấn qua Flash cho các dự án quy mô lớn, với một người hoàn thành tác vụ phân loại tài liệu lớn sử dụng 100.000 truy vấn chỉ trong hơn một ngày với chi phí khoảng 30 euro. Điều này chứng minh giá trị thực tế của việc ưu tiên tốc độ và hiệu quả chi phí hơn các chỉ số hiệu suất lý thuyết.
Bảng xếp hạng tốc độ (Nhanh nhất đến chậm nhất):
- Google Gemini 1.5 Flash (nhanh nhất)
- Moonshot AI v1-0528
- OpenAI GPT-OSB-128k
- DeepSeek Chat v1-0528
- OpenAI GPT-3.5 Turbo
- OpenAI GPT-3.5 Turbo Thinking (chậm nhất)
- Google Gemini 2.5 Pro (chậm nhất)
Các Mô Hình Đóng Hoạt Động Kém Mặc Dù Chi Phí Cao Hơn
Có lẽ phát hiện đáng ngạc nhiên nhất là các mô hình đóng đắt tiền từ các nhà cung cấp lớn không liên tục vượt trội hơn các lựa chọn thay thế rẻ hơn. Gemini 2.5 Pro của Google và Claude Sonnet 4.0 của Anthropic xếp hạng thấp trong đánh giá mặc dù có mức giá cao cấp. Điều này đã gây tiếng vang với các thành viên cộng đồng đặt câu hỏi liệu sự khác biệt chi phí đáng kể có biện minh cho những cải thiện nhỏ mà các mô hình này có thể mang lại.
Đánh giá cũng làm nổi bật yêu cầu Know Your Customer mới của OpenAI để truy cập các mô hình tốt nhất của họ thông qua API, điều mà nhiều nhà phát triển thấy quá hạn chế cho việc sử dụng thông thường. Rào cản này đã đẩy người dùng hướng tới các nền tảng thay thế và giải pháp mã nguồn mở.
Bảng xếp hạng chi phí (Từ rẻ nhất đến đắt nhất):
- Moonshot AI v1-0528 (rẻ nhất)
- OpenAI GPT-OSB-128k
- DeepSeek Chat v1-0528
- Google Gemini 1.5 Flash
- Google Gemini 2.5 Pro (đắt nhất)
- Anthropic Claude Sonnet 4.0 (đắt nhất)
![]() |
---|
Biểu đồ cột này minh họa tổng chi phí liên quan đến các model ngôn ngữ lớn khác nhau, làm nổi bật những tác động tài chính của việc sử dụng các model đóng |
Tính Năng Suy Luận Cho Thấy Giá Trị Hạn Chế Đối Với Các Tác Vụ Đơn Giản
Nghiên cứu phát hiện rằng khả năng suy luận, mặc dù ấn tượng đối với các vấn đề phức tạp như viết thơ, hiếm khi giúp ích cho các câu hỏi lập trình và kỹ thuật hàng ngày. Hầu hết người dùng xác nhận quan sát này, lưu ý rằng độ trễ bổ sung từ các mô hình suy luận không đáng giá cho các truy vấn thường ngày.
Tuy nhiên, một số thành viên cộng đồng chỉ ra rằng hiệu quả của suy luận phụ thuộc rất nhiều vào cách cấu trúc câu hỏi. Chia nhỏ các tác vụ phức tạp thành các câu hỏi đơn giản có hoặc không có thể cải thiện đáng kể tỷ lệ chính xác từ khoảng 50% lên 85% cho cùng một mô hình cơ bản.
Chiến lược đa mô hình được khuyến nghị:
- Truy vấn nhanh: DeepSeek Chat v3.1 (90% sử dụng hàng ngày)
- Ý kiến thứ hai: Chia màn hình với mô hình nhanh bổ sung
- Lý luận phức tạp: Thiết lập ba ngăn với các mô hình tư duy bao gồm Claude Sonnet để xác thực
Chiến Lược Đa Mô Hình Ngày Càng Phổ Biến
Thay vì chọn một mô hình tốt nhất duy nhất, đánh giá đã dẫn đến một cách tiếp cận thú vị: sử dụng nhiều mô hình đồng thời cho các tình huống khác nhau. Chiến lược này bao gồm chạy các truy vấn nhanh trên các mô hình nhanh, rẻ như DeepSeek Chat, sau đó tham khảo ý kiến các mô hình bổ sung để có ý kiến thứ hai hoặc các tác vụ suy luận phức tạp hơn.
Thảo luận cộng đồng cho thấy cách tiếp cận đa mô hình này đang ngày càng trở nên phổ biến, với các nền tảng như Perplexity và Kagi cung cấp quyền truy cập dễ dàng vào nhiều mô hình. Người dùng đánh giá cao khả năng so sánh phản hồi và chọn câu trả lời phù hợp nhất cho nhu cầu cụ thể của họ.
Việc đánh giá nhấn mạnh vào các mẫu sử dụng thực tế hơn là các tiêu chuẩn tổng hợp đã chạm đến trái tim của các nhà phát triển cần công cụ AI thực tế hơn là khả năng demo ấn tượng. Như một thành viên cộng đồng lưu ý, chìa khóa là xây dựng trực giác về những loại câu hỏi nào hoạt động tốt với các mô hình khác nhau, mặc dù kiến thức này vẫn khó chuyển giao giữa các người dùng.
Tham khảo: Evaluating LLMs for my personal use case