AI Agent Lập Trình Gặp Khủng Hoảng Độ Tin Cậy Khi Lượng Token Sử Dụng Tăng Vọt 50 Lần

Nhóm Cộng đồng BigGo

AI Agent Lập Trình Gặp Khủng Hoảng Độ Tin Cậy Khi Lượng Token Sử Dụng Tăng Vọt 50 Lần

Các trợ lý lập trình được hỗ trợ bởi AI đang trải qua những khó khăn trong quá trình phát triển khiến nhiều nhà phát triển liên tưởng đến thời kỳ đầu của internet dial-up. Những gì từng cảm thấy như phép thuật chỉ vài tháng trước giờ đây ngày càng khiến người dùng thất vọng với tình trạng gián đoạn thường xuyên, thời gian phản hồi chậm và hiệu suất không ổn định.

Việc so sánh với internet thập niên 1990 không chỉ là hoài niệm - mà còn khá chính xác. Giống như modem dial-up thường bị ngắt kết nối khi thời tiết xấu hoặc khi ai đó cần gọi điện thoại, các coding agent ngày nay thường bị kẹt, cần thử lại nhiều lần, và khiến các nhà phát triển phải chờ đợi những phản hồi chậm chạp với tốc độ 30-60 token mỗi giây.

So sánh hiệu suất mô hình AI:

Các mô hình tiên tiến hiện tại: 30-60 token/giây
Các mô hình nhanh thử nghiệm ( Cerebras ): 2.000 token/giây (nhanh hơn 20-50 lần)
Mức cải thiện tốc độ tương đương với quá trình chuyển đổi từ dial-up sang ADSL/cáp quang

Hạ Tầng Căng Thẳng Do Lượng Sử Dụng Tăng Mạnh

Đằng sau các vấn đề về độ tin cậy là sự bùng nổ trong việc tiêu thụ token AI. Dữ liệu từ OpenRouter cho thấy mức tăng đáng kinh ngạc 50 lần trong việc sử dụng, mặc dù điều này chỉ đại diện cho một phần rất nhỏ của lưu lượng AI toàn cầu. Các con số thực từ những nhà cung cấp lớn như Google , Anthropic và OpenAI vẫn được giữ bí mật nghiêm ngặt.

Sự tăng vọt này xuất phát từ cách thức hoạt động khác biệt của coding agent so với chatbot đơn giản. Trong khi một cuộc trò chuyện AI thông thường có thể sử dụng hàng trăm token, quy trình làm việc của agentic coding có thể tiêu thụ nhiều hơn hàng nghìn lần token khi chúng phân tích mã, tạo ra giải pháp và lặp lại qua các tác vụ phức tạp. Nhu cầu tài nguyên khổng lồ này đang gây áp lực to lớn lên hạ tầng cung cấp năng lượng cho các dịch vụ này.

Các nhà cung cấp AI lớn đang gặp khó khăn với tải cao điểm, đặc biệt khi giờ làm việc của Mỹ và châu Âu trùng nhau. Kết quả là một mô hình quen thuộc của hiệu suất suy giảm trong các thời điểm bận rộn, giống như các nhà cung cấp broadband đầu tiên không thể xử lý lưu lượng internet buổi tối.

Tăng trưởng sử dụng Token:

OpenRouter báo cáo mức tăng 50 lần trong việc sử dụng token AI
Quy trình làm việc lập trình agentic tiêu thụ nhiều hơn ~1000 lần token so với các tương tác chat đơn giản
Nhu cầu cao điểm xảy ra trong khoảng thời gian làm việc chồng lấp giữa Mỹ và châu Âu

Vấn Đề Nút Thắt Tốc Độ

Các mô hình AI hiện tại hoạt động với tốc độ tạo ra quy trình làm việc khó xử cho các nhà phát triển. Với tốc độ 30-60 token mỗi giây, nhịp độ này đủ chậm để gây khó chịu nhưng đủ nhanh để việc chuyển đổi ngữ cảnh giữa nhiều phiên bản agent trở nên quá tải.

Một số nhà phát triển đã thử nghiệm với các mô hình nhanh hơn nhiều chạy ở tốc độ 2.000 token mỗi giây - cải thiện tốc độ 20-50 lần tương tự như bước nhảy từ dial-up lên broadband đầu tiên. Tuy nhiên, điều này tạo ra các vấn đề riêng. Tốc độ chóng mặt khiến việc chấp nhận mọi thứ mà không xem xét kỹ trở nên hấp dẫn, dẫn đến chất lượng mã kém.

Ở tốc độ 2000tok/s, nút thắt nhanh chóng trở thành chính bạn. Việc bắt đầu chấp nhận mọi thứ trở nên rất hấp dẫn, vì nó đến quá nhanh, điều này dẫn đến kết quả tệ hại.

Cộng đồng chia rẽ về tốc độ tối ưu. Một số nhà phát triển thích tốc độ hiện tại vì họ có thể theo dõi công việc của AI theo thời gian thực và can thiệp khi nó đi sai hướng. Những người khác lập luận rằng tốc độ nhanh hơn nhiều sẽ cho phép các quy trình làm việc mới, như chạy nhiều nỗ lực song song để giải quyết cùng một vấn đề.

Lợi Ích Năng Suất Vẫn Còn Tranh Cãi

Mặc dù được áp dụng rộng rãi, lợi ích năng suất thực tế của các trợ lý lập trình AI vẫn được tranh luận sôi nổi trong cộng đồng nhà phát triển. Những người chỉ trích lập luận rằng trong khi AI có thể tăng năng suất cảm nhận được, nó thực sự làm giảm sự tham gia nhận thức với mã, dẫn đến các vấn đề dài hạn khi mã được tạo bởi AI tích tụ trong codebase mà không có sự hiểu biết đúng đắn từ những người bảo trì con người.

Những người ủng hộ phản bác rằng AI thay đổi cơ bản cách họ làm việc, cho phép họ giải quyết các dự án mà họ thường không có thời gian. Công nghệ này có vẻ thành công nhất trong việc tạo ra các công cụ nội bộ, nguyên mẫu nhanh và xử lý các tác vụ thường xuyên thay vì phát triển ứng dụng cốt lõi.

Cuộc tranh luận thường quy về cách các nhà phát triển sử dụng những công cụ này. Những người coi AI như một công cụ tìm kiếm hoặc trợ lý xem xét mã báo cáo trải nghiệm tốt hơn so với những người dựa vào nó để tạo mã chính.

Sự phát triển quy trình làm việc của nhà phát triển:

Thời kỳ GPT-3.5: Hỏi đáp cơ bản với tình trạng ảo giác thường xuyên
Thời kỳ GPT-4/Sonnet 3.5: Trợ lý thiết yếu cho các đoạn mã và câu hỏi
Thời kỳ hiện tại: Các agent CLI được giám sát hỗ trợ phần lớn công việc phát triển
Thời kỳ tương lai: Các lần thử song song không giám sát với đánh giá tự động

Mô Hình Định Giá Và Truy Cập Tương Lai

Những thách thức về hạ tầng có khả năng định hình lại cách các dịch vụ lập trình AI được định giá và cung cấp. Các mô hình hiện tại gặp khó khăn với nhu cầu cao điểm trong khi có công suất dự phòng khổng lồ trong giờ thấp điểm. Điều này phản ánh những thách thức của nhà cung cấp dịch vụ internet đầu tiên và gợi ý các giải pháp tương tự có thể xuất hiện.

Hãy mong đợi thấy các gói định giá ngoài giờ cao điểm cung cấp giới hạn sử dụng hào phóng hơn ngoài giờ làm việc bận rộn. Trong khi một số nhà cung cấp đã cung cấp giảm giá xử lý hàng loạt, những điều này không phù hợp cho quy trình lập trình tương tác yêu cầu phản hồi thời gian thực.

Ngành công nghiệp cũng có thể chuyển sang các mô hình định giá tinh vi hơn được thiết kế để làm phẳng nhu cầu qua các múi giờ khác nhau, giúp các nhà cung cấp quản lý hạ tầng của họ hiệu quả hơn trong khi cung cấp cho các nhà phát triển quyền truy cập dự đoán được hơn vào hỗ trợ AI.

Khi công nghệ tiếp tục phát triển nhanh chóng, các nhà phát triển phải đối mặt với áp lực cập nhật với các công cụ và phương pháp mới. Bối cảnh vẫn rất không ổn định, với những cải tiến đáng kể trong cả công cụ và khả năng mô hình đến thường xuyên. Hiện tại, kỷ nguyên dial-up của lập trình AI vẫn tiếp tục, nhưng phiên bản tương đương broadband có thể không còn xa.

Tham khảo: What happens when coding agents stop feeling like dialup?

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌