Chứng minh định lý tương tác từ lâu đã được coi là một trong những lĩnh vực khó khăn nhất trong khoa học máy tính. Các công cụ như Lean yêu cầu người dùng viết các bằng chứng toán học bằng ngôn ngữ hình thức mà máy tính có thể xác minh với độ chắc chắn tuyệt đối. Không giống như lập trình thông thường nơi các lỗi có thể lọt qua, các công cụ chứng minh định lý hoặc chấp nhận bằng chứng của bạn là đúng đắn về mặt toán học hoặc từ chối hoàn toàn. Bản chất tất cả hoặc không có gì này đã khiến lĩnh vực này chỉ có thể tiếp cận được với các chuyên gia có kiến thức toán học sâu sắc.
Các thí nghiệm gần đây với Claude Code , tác nhân mã hóa AI của Anthropic , cho thấy rào cản này có thể đang được hạ thấp. AI đã thể hiện khả năng đáng ngạc nhiên trong việc viết các bằng chứng Lean , hoàn thành các nhiệm vụ hình thức hóa toán học phức tạp mà thông thường đòi hỏi kiến thức chuyên môn. Lợi thế chính dường như là hệ thống phản hồi nghiêm ngặt của Lean - khi AI mắc lỗi, nó nhận được thông tin chi tiết, có thể hành động về những gì đã sai, cho phép nó lặp lại và cải thiện cách tiếp cận.
Công cụ Chứng minh Định lý Tương tác: Lean được nổi bật như công cụ chính, với gần nửa triệu dòng mã toán học được hình thức hóa
Mô Hình Quen Thuộc Của Các Hạn Chế Tiến Bộ AI
Tuy nhiên, cộng đồng đã nêu ra những lo ngại đáng kể về một mô hình mà họ đã thấy lặp đi lặp lại với các công cụ AI. Nhiều nhà phát triển báo cáo rằng AI có thể xử lý 80% ban đầu của một dự án một cách xuất sắc, nhưng gặp khó khăn rất lớn với 20% cuối cùng. Hiện tượng này, đôi khi được gọi là vấn đề 90%, trở nên rõ rệt hơn khi các dự án phát triển về độ phức tạp và đòi hỏi các giải pháp ngày càng cụ thể.
Bất kỳ ai đã sử dụng các công cụ AI đều đã thấy những trường hợp mà 80% đầu của dự án được kết hợp lại như một tia chớp, nhưng 20% cuối cùng gần như không thể thực hiện được đối với AI, ngay cả khi nó không có vẻ phức tạp hơn phần còn lại của mã.
Mối lo ngại đặc biệt có liên quan đến chứng minh định lý, nơi công việc không hoàn chỉnh không có giá trị. Không giống như phát triển phần mềm nơi các giải pháp một phần vẫn có thể hữu ích, các bằng chứng toán học phải hoàn chỉnh mới có ý nghĩa. Điều này tạo ra một môi trường có mức độ rủi ro cao nơi xu hướng của AI gặp khó khăn với các chi tiết cuối cùng có thể chứng minh là đặc biệt có vấn đề.
Mô hình Phát triển AI: Cộng đồng báo cáo "quy tắc 80/20" nhất quán khi AI hoàn thành 80% dự án một cách dễ dàng nhưng gặp khó khăn với 20% cuối cùng
Thách Thức Đặc Tả Vẫn Còn
Ngoài vấn đề hoàn thành, còn có một vấn đề sâu sắc hơn mà AI chưa giải quyết được: thách thức tạo ra các đặc tả phù hợp. Như một thành viên cộng đồng đã lưu ý, viết chương trình không phải là phần khó - việc tìm ra chính xác những gì một chương trình nên làm mới là nơi khó khăn thực sự nằm. Vấn đề này trở nên quan trọng hơn trong xác minh hình thức, nơi bạn phải nắm bắt chính xác không chỉ những gì mã của bạn làm, mà những gì nó nên làm về mặt toán học.
Rủi ro là người dùng có thể kết thúc với các bằng chứng được xác minh hình thức mà thực tế không đại diện cho các vấn đề họ dự định giải quyết. Ngay cả khi Claude Code có thể viết cú pháp Lean hoàn hảo, vẫn cần ai đó có chuyên môn để đảm bảo các câu lệnh toán học được chứng minh là đúng. Điều này cho thấy rằng trong khi AI có thể hạ thấp một số rào cản gia nhập, kiến thức chuyên môn sâu vẫn là cần thiết.
Một Hướng Đi Đầy Hứa Hẹn Bất Chấp Các Hạn Chế
Bất chấp những lo ngại này, sự kết hợp giữa AI và xác minh hình thức đại diện cho một sự phát triển hấp dẫn. Chứng minh định lý cung cấp chính xác những gì AI cần để cải thiện: phản hồi ngay lập tức, chi tiết về các lỗi. Khi Claude Code mắc lỗi trong Lean , nó nhận được thông tin chính xác về những gì đã sai và có thể lặp lại hướng tới một giải pháp. Điều này tạo ra một vòng lặp học tập tự nhiên không tồn tại trong nhiều lĩnh vực khác.
Cộng đồng có vẻ thận trọng lạc quan về hướng này, đặc biệt đối với những người dùng đã hiểu các khái niệm toán học họ muốn hình thức hóa. Đối với những chuyên gia này, sự hỗ trợ của AI có thể giảm đáng kể các khía cạnh tẻ nhạt của việc viết bằng chứng trong khi vẫn yêu cầu sự giám sát của con người cho công việc khái niệm. Công nghệ có thể không loại bỏ nhu cầu về chuyên môn toán học, nhưng nó có thể làm cho chuyên môn đó hiệu quả hơn.
Điều quan trọng sẽ là quản lý kỳ vọng và hiểu các hạn chế của công cụ. Như với các ứng dụng AI khác, những người dùng thành công nhất có thể sẽ là những người sử dụng nó để tăng cường các kỹ năng hiện có của họ thay vì thay thế nhu cầu hiểu lĩnh vực cơ bản.
Tham khảo: Claude Can (Sometimes) Prove It