DeepWiki , một công cụ được hỗ trợ bởi AI tự động tạo tài liệu cho các kho lưu trữ GitHub , đang nhận được sự chỉ trích từ những người duy trì mã nguồn mở cho rằng nó đang tạo ra thông tin sai lệch về các dự án của họ. Công cụ này, được tạo ra bởi Copilotric (nhóm đứng sau kỹ sư phần mềm AI viral Devin ), chuyển đổi bất kỳ kho lưu trữ GitHub nào thành một trang web tài liệu kiểu wiki có thể điều hướng.
Tính năng của DeepWiki:
- Chuyển đổi các kho lưu trữ GitHub thành tài liệu dạng wiki có thể điều hướng được
- Cung cấp hai chế độ: Fast (trả lời lặp từ biểu đồ mã) và Deep Research (quét nhiều tệp)
- Đưa ra các câu trả lời có căn cứ với hệ thống trích dẫn bốn cấp độ trở về các tệp nguồn
- Có sẵn thông qua giao diện web hoặc tích hợp máy chủ MCP với các IDE AI
- Truy cập API miễn phí cho các nhà phát triển
Vấn đề độ chính xác làm khổ các dự án phổ biến
Một số người duy trì đã phát hiện ra những lỗi đáng kể trong tài liệu được tạo tự động bởi DeepWiki . Dự án LibreOffice thấy mình phải đối phó với thông tin hệ thống xây dựng hoàn toàn không chính xác, với DeepWiki sai lầm khi tuyên bố rằng dự án sử dụng Buck làm hệ thống xây dựng chính. Tương tự, những người duy trì các dự án nhỏ hơn báo cáo việc tìm thấy những mô tả tinh vi không chính xác có thể gây hiểu lầm cho các nhà phát triển trong nhiều tháng tới.
Các vấn đề về độ chính xác dường như bắt nguồn từ cách AI diễn giải cấu trúc mã và quy ước đặt tên. Trong một số trường hợp, công cụ này tập trung vào các tệp lớn hoặc cấu hình lỗi thời, bỏ lỡ các thành phần quan trọng được chia thành nhiều tệp nhỏ hơn. Đối với các dự án phức tạp như LLVM , người dùng báo cáo rằng DeepWiki hoàn toàn bỏ qua các công cụ thiết yếu như TableGen trong khi nhấn mạnh quá mức các thành phần ít quan trọng hơn.
Các vấn đề được báo cáo:
- LibreOffice: Xác định sai Buck là hệ thống build chính (thực tế sử dụng Make)
- LLVM: Thiếu các thành phần quan trọng như TableGen và InstCombine passes
- Compiler Explorer: Mô tả các tệp thuộc tính không chính xác một cách tinh vi
- Tổng quát: Tập trung quá mức vào các tệp lớn trong khi bỏ sót các thành phần phân tán
Tài liệu không được ủy quyền tạo ra sự nhầm lẫn
Một mối quan tâm lớn trong số các nhà phát triển là DeepWiki tạo tài liệu cho bất kỳ kho lưu trữ công khai nào mà không có sự cho phép từ những người duy trì. Điều này tạo ra một tình huống có vấn đề khi những người mới tham gia dự án có thể khám phá tài liệu được tạo bởi AI thông qua các công cụ tìm kiếm và nhầm lẫn nó với tài liệu chính thức của dự án.
Vậy nên cuối cùng mọi người sẽ tin rằng đây là những tài liệu chính thức...
Vấn đề này phản ánh những vấn đề mà cộng đồng OCaml và Julia đã đối mặt với các trang web nội dung tạo ra tài liệu học tập được tối ưu hóa SEO nhưng không chính xác. Những người duy trì lo lắng rằng tài liệu của DeepWiki có thể xếp hạng cao hơn trong kết quả tìm kiếm so với tài liệu dự án thực tế, dẫn đến sự nhầm lẫn rộng rãi trong số những người đóng góp mới.
Quy trình từ chối tham gia:
- Ban đầu không có cơ chế yêu cầu gỡ bỏ rõ ràng
- Các nhà duy trì báo cáo thành công khi liên hệ trực tiếp qua email
- Một số nhà phát triển đe dọa hành động pháp lý vì lo ngại về thông tin sai lệch
- Những người tạo ra công cụ phản hồi các yêu cầu gỡ bỏ một cách lịch sự
Phản hồi trái chiều mặc dù hữu ích
Không phải tất cả phản hồi đều tiêu cực. Một số nhà phát triển khen ngợi DeepWiki vì giúp họ nhanh chóng hiểu các codebase không quen thuộc và tạo ra những tổng quan kiến trúc hữu ích. Khả năng của công cụ trong việc trả lời các câu hỏi cụ thể về cấu trúc mã và cung cấp các tham chiếu liên kết đến các tệp nguồn đã chứng minh có giá trị cho một số trường hợp sử dụng nhất định.
Tuy nhiên, ngay cả những người ủng hộ cũng thừa nhận những hạn chế. Các biểu đồ và giải thích được tạo tự động có xu hướng quá cao cấp cho công việc kỹ thuật, thiếu độ chính xác cần thiết cho các nhiệm vụ phát triển thực tế. Người dùng báo cáo rằng trong khi công cụ có thể cung cấp một cái nhìn tổng quan chung, nó thường bỏ lỡ các chi tiết triển khai quan trọng mà các nhà phát triển cần.
Thách thức tài liệu AI rộng lớn hơn
Cuộc tranh cãi về DeepWiki làm nổi bật một căng thẳng ngày càng tăng trong cộng đồng mã nguồn mở về các công cụ AI hoạt động mà không có sự cho phép rõ ràng. Trong khi công nghệ mang lại lợi ích thực sự cho việc hiểu mã, các vấn đề về độ chính xác và thiếu kiểm soát của người duy trì đặt ra câu hỏi về việc triển khai AI có trách nhiệm trong các công cụ phát triển.
Hiện tại, một số người duy trì đang tự giải quyết vấn đề, hoặc yêu cầu gỡ bỏ các dự án của họ hoặc thêm các bình luận làm rõ vào mã của họ để ngăn chặn việc AI diễn giải sai. Tình huống này nhấn mạnh nhu cầu hợp tác tốt hơn giữa những người tạo ra công cụ AI và cộng đồng mã nguồn mở mà họ hướng đến phục vụ.
Tham khảo: DeepWiki: Understand Any Codebase