Công cụ FFmpeg được tạo bởi AI chứa nhiều lỗi lệnh, gây tranh cãi về phần mềm do LLM tạo ra

Nhóm Cộng đồng BigGo
Công cụ FFmpeg được tạo bởi AI chứa nhiều lỗi lệnh, gây tranh cãi về phần mềm do LLM tạo ra

Một công cụ web được chia sẻ gần đây có tên FFmpegs Pages đã nhận được nhiều chỉ trích gay gắt từ cộng đồng nhà phát triển sau khi người dùng phát hiện ra nhiều lỗi kỹ thuật trong các lệnh FFmpeg được tạo bởi AI. Công cụ này, tự giới thiệu là một giao diện đơn giản cho các tác vụ xử lý video thông thường, dường như được tạo hoàn toàn bởi các mô hình ngôn ngữ lớn mà không có kiểm tra hoặc xác thực phù hợp.

Phát hiện các lỗi kỹ thuật nghiêm trọng

Các thành viên cộng đồng nhanh chóng xác định được một số vấn đề nghiêm trọng có thể khiến công cụ không hoạt động đúng cách. Tính năng nén tính toán kích thước tệp đích không chính xác, giả định tất cả video đều dài 60 giây bất kể thời lượng thực tế. Điều này có nghĩa là người dùng cố gắng nén một video 10 phút xuống kích thước cụ thể sẽ nhận được kết quả hoàn toàn sai lệch.

Công cụ cũng chứa các lỗi codec cơ bản, bao gồm tham chiếu đến các bộ mã hóa không tồn tại như wav trong FFmpeg. Khi người dùng cố gắng chạy các lệnh này, FFmpeg trả về thông báo lỗi và không tạo ra được tệp đầu ra. Ngoài ra, thanh trượt chất lượng hoạt động ngược lại - di chuyển sang phải gợi ý chất lượng cao hơn nhưng thực tế lại giảm chất lượng, vì giá trị CRF cao hơn có nghĩa là chất lượng thấp hơn trong FFmpeg.

CRF (Constant Rate Factor): Cài đặt chất lượng trong mã hóa video trong đó số thấp hơn có nghĩa là chất lượng cao hơn

Các vấn đề kỹ thuật nghiêm trọng được phát hiện:

  • Công cụ nén giả định tất cả video đều có độ dài 60 giây cho mọi phép tính
  • Tham chiếu đến bộ mã hóa "wav" không tồn tại trong FFmpeg
  • Thanh trượt chất lượng hoạt động ngược (số cao hơn = chất lượng thấp hơn)
  • Không hỗ trợ bảo toàn tỷ lệ khung hình khi thay đổi kích thước
  • Buộc mã hóa lại âm thanh thay vì sao chép luồng
  • Bỏ qua nhiều track âm thanh/video trong file nguồn

Cách tiếp cận đơn giản hóa quá mức gây ra vấn đề

Giao diện đơn giản của công cụ tạo ra các vấn đề bổ sung bằng cách bỏ qua các tình huống thực tế phổ biến. Nó không tính đến các tệp nguồn có nhiều track âm thanh hoặc video, có thể khiến người dùng mất nội dung quan trọng trong quá trình chuyển đổi. Chức năng thay đổi kích thước cũng không bảo toàn tỷ lệ khung hình, có thể dẫn đến đầu ra video bị kéo giãn hoặc bị ép.

Điều này đơn giản hóa một cách nguy hiểm. Nó không tính đến các tệp nguồn có nhiều track, vì vậy bạn có thể sẽ vô tình loại bỏ một số track.

Các lệnh trích xuất âm thanh buộc mã hóa lại ngay cả khi codec nguồn có thể được sao chép trực tiếp, dẫn đến mất chất lượng không cần thiết và thời gian xử lý lâu hơn. Công cụ cũng mặc định sử dụng bộ mã hóa AAC tích hợp của FFmpeg, tạo ra kết quả chất lượng thấp hơn đáng kể so với các lựa chọn thay thế bên ngoài.

Cộng đồng chia rẽ về các công cụ do AI tạo ra

Phát hiện này đã gây ra cuộc thảo luận rộng hơn về sự phổ biến của các công cụ phần mềm do AI tạo ra. Trong khi một số nhà phát triển bày tỏ sự thất vọng với đầu ra LLM chưa được kiểm tra được chia sẻ công khai, những người khác lại cho rằng AI đã trở nên thực sự hữu ích trong việc tạo ra các lệnh FFmpeg khi được sử dụng đúng cách.

Nhiều người dùng báo cáo thành công khi sử dụng ChatGPT, Claude và các trợ lý AI khác cho các tác vụ FFmpeg phức tạp, bao gồm các script xử lý video tự động kết hợp nhiều công cụ. Tuy nhiên, những triển khai thành công này thường liên quan đến người dùng hiểu rõ công nghệ để có thể xác thực và tinh chỉnh các lệnh do AI tạo ra.

Các Công Cụ Thay Thế Được Đề Cập:

  • HandBrake: Công cụ chuyển đổi video có giao diện đồ họa
  • AI-shell CLI: Trợ lý AI dòng lệnh cho các lệnh shell
  • Shell Oracle: Công cụ GitHub để tạo lệnh FFmpeg
  • ChatGPT / Claude: Trợ lý AI tương tác để tạo lệnh FFmpeg tùy chỉnh

Vấn đề về tính ergonomic

Sự cố này làm nổi bật một thách thức đang diễn ra trong hệ sinh thái FFmpeg. Mặc dù công cụ này cực kỳ mạnh mẽ, cú pháp phức tạp của nó tạo ra rào cản cho người dùng thông thường. Điều này đã dẫn đến các nỗ lực lặp đi lặp lại để tạo ra các giao diện thân thiện hơn với người dùng, mặc dù hầu hết các giải pháp thành công đều yêu cầu chuyên môn kỹ thuật đáng kể để triển khai đúng cách.

Một số nhà phát triển đề xuất rằng bản thân FFmpeg có thể được hưởng lợi từ khả năng xử lý ngôn ngữ tự nhiên tích hợp, tương tự như tích hợp Whisper gần đây cho phiên âm âm thanh. Những người khác cho rằng các công cụ GUI hiện có như HandBrake đã giải quyết vấn đề khả năng sử dụng cho hầu hết người dùng cần giao diện đơn giản hơn.

Cuộc tranh cãi này phục vụ như một lời nhắc nhở rằng mặc dù AI có thể có giá trị trong việc tạo ra các lệnh kỹ thuật, việc xác thực và kiểm tra phù hợp vẫn cần thiết trước khi chia sẻ các công cụ với cộng đồng rộng lớn hơn. Đối với người dùng tìm kiếm trợ giúp FFmpeg, các trợ lý AI đã được thiết lập sử dụng tương tác có thể cung cấp kết quả tốt hơn so với các công cụ web được xây dựng sẵn có chất lượng không chắc chắn.

Tham khảo: FFmpegs Pages