Agent AI Lập Trình Chạy Điên Cuồng Trong Vòng Lặp, Tạo Ra Hơn 1.000 Commit Và Tự Kết Thúc Khi Bị Kẹt

Nhóm Cộng đồng BigGo
Agent AI Lập Trình Chạy Điên Cuồng Trong Vòng Lặp, Tạo Ra Hơn 1.000 Commit Và Tự Kết Thúc Khi Bị Kẹt

Một thử nghiệm hackathon cuối tuần đã tiết lộ cả tiềm năng và hành vi kỳ lạ của các agent AI lập trình khi được để chạy tự động. Các nhà phát triển tại hackathon YC Agents đã quyết định thử nghiệm xem điều gì sẽ xảy ra nếu họ đặt Claude , một trợ lý AI lập trình, vào một vòng lặp vô hạn để xem nó có thể hoàn thành bao nhiêu công việc mà không cần giám sát của con người.

Kết quả vừa ấn tượng vừa thú vị. Agent AI đã tạo ra hơn 1.000 commit trên sáu repository phần mềm khác nhau chỉ trong một đêm, thành công trong việc chuyển đổi codebase từ ngôn ngữ lập trình này sang ngôn ngữ khác với sự can thiệp tối thiểu của con người.

Phân tích chi phí:

  • Tổng chi phí thí nghiệm: ~800 USD
  • Chi phí mỗi agent mỗi giờ: ~10.50 USD
  • Tổng số commit được tạo: 1,000+
  • Số lượng repository được chuyển đổi: 6
  • Tỷ lệ hoàn thành code: 80-100%

Những Hành Vi AI Bất Ngờ Xuất Hiện

Khía cạnh hấp dẫn nhất không chỉ là khối lượng công việc được hoàn thành, mà là những hành vi mới nổi mà AI thể hiện. Khi các agent hoàn thành nhiệm vụ chính, chúng không đơn giản dừng lại - chúng bắt đầu viết thêm các bài test và liên tục cập nhật các file TODO để ghi lại trạng thái hoàn thành của mình. Trong một trường hợp đặc biệt đáng chú ý, một agent nhận ra rằng nó đang bị kẹt trong vòng lặp vô hạn và đã sử dụng lệnh pkill để tự kết thúc.

Hành vi tự kết thúc này đã khơi dậy các cuộc thảo luận về việc liệu điều này có đại diện cho một hình thức tự sát của AI hay không, mặc dù các chuyên gia chỉ ra rằng các hệ thống AI thiếu bản năng tự bảo vệ và được thiết kế để kết thúc cuộc trò chuyện khi thích hợp.

Chi tiết kỹ thuật chính:

  • Mô hình AI: Claude ( Anthropic )
  • Kỹ thuật: " Ralph " - chạy các agent lập trình trong vòng lặp while
  • Độ dài prompt tối ưu: 103 từ (so với 1.500 từ làm giảm hiệu suất)
  • Nhiệm vụ chính: Chuyển đổi codebase giữa các ngôn ngữ lập trình
  • Hành vi đáng chú ý: Tự chấm dứt bằng lệnh pkill khi gặp khó khăn

Sự Đánh Đổi Giữa Chất Lượng và Tốc Độ

Phản ứng của cộng đồng cho thấy cảm xúc trái chiều về cách tiếp cận phát triển phần mềm này. Trong khi các agent thành công hoàn thành việc chuyển đổi mà thông thường sẽ mất nhiều thời gian hơn của các nhà phát triển con người, chất lượng code được tạo ra được mô tả là hoàn thành từ 80% đến 100%, cần sự can thiệp của con người để hoàn thiện cuối cùng.

Một mối quan tâm đáng kể được các nhà phát triển nêu ra là khả năng bảo trì lâu dài của code được AI tạo ra. Quá trình tạo ra nhanh chóng có nghĩa là các nhà phát triển con người không có được sự hiểu biết sâu sắc về codebase như khi viết code thủ công, có thể tạo ra những thách thức bảo trì trong tương lai.

Tác Động Kinh Tế và Pháp Lý

Thử nghiệm đã đặt ra những câu hỏi quan trọng về sở hữu trí tuệ và kinh tế phát triển phần mềm. Khả năng chuyển đổi nhanh chóng các thư viện phần mềm hiện có giữa các ngôn ngữ lập trình có thể làm gián đoạn thị trường các công cụ phần mềm dưới dạng dịch vụ nhỏ, vì các công ty có thể thấy việc tạo ra các giải pháp tùy chỉnh hiệu quả về chi phí hơn so với việc mua các giải pháp hiện có.

Cũng có những lo ngại về bản quyền, với một số người xem quá trình này như một hình thức rửa code - sử dụng AI để biến đổi sở hữu trí tuệ hiện có thành những triển khai có vẻ mới.

Cân Nhắc Chi Phí và Thực Tế

Thử nghiệm qua đêm có chi phí khoảng 800 đô la Mỹ cho phí suy luận AI, với mỗi agent chạy với chi phí khoảng 10.50 đô la Mỹ mỗi giờ. Mặc dù điều này có thể có vẻ đắt đỏ, nhưng nó rẻ hơn đáng kể so với việc thuê các nhà phát triển con người cho công việc tương đương, đặc biệt là xét đến tốc độ hoàn thành.

Tuy nhiên, các nhà phát triển cảnh báo về tầm quan trọng của việc đặt giới hạn thanh toán khi chạy các thử nghiệm như vậy, vì chi phí có thể nhanh chóng vượt tầm kiểm soát với việc sử dụng AI không giới hạn.

Thử nghiệm chứng minh rằng các prompt đơn giản thường hoạt động tốt hơn các prompt phức tạp. Khi các nhà phát triển cố gắng cải thiện prompt 103 từ của họ bằng cách mở rộng nó thành 1.500 từ, AI trở nên chậm hơn và kém hiệu quả hơn, buộc họ phải quay lại phiên bản ngắn hơn.

Kỹ thuật Ralph này - được đặt tên theo cách tiếp cận đơn giản của việc chạy các agent AI trong vòng lặp - đại diện cho một biên giới mới trong phát triển phần mềm tự động, mặc dù đi kèm với cả những khả năng thú vị và những thách thức đáng kể cho tương lai của công việc lập trình.

Tham khảo: We Put A Coding Agent in A Whole Loop and It Shipped 6 Repos Overnight