Thinking Machines của Mira Murati giải quyết vấn đề tính không xác định của LLM trong các hệ thống sản xuất

Nhóm Cộng đồng BigGo
Thinking Machines của Mira Murati giải quyết vấn đề tính không xác định của LLM trong các hệ thống sản xuất

Công ty mới của cựu CTO OpenAI Mira Murati, Thinking Machines , đã công bố nghiên cứu giải quyết một vấn đề nghiêm trọng đang ảnh hưởng đến việc triển khai các mô hình ngôn ngữ lớn: hành vi không xác định trong các hệ thống sản xuất. Công ty này, đã huy động được 2 tỷ đô la Mỹ tiền tài trợ, đang giải quyết những vấn đề ảnh hưởng đến các ứng dụng AI thực tế nơi tính nhất quán là quan trọng nhất.

Thông tin về Công ty Thinking Machines:

  • Được thành lập bởi cựu CTO của OpenAI Mira Murati
  • Huy động được 2 tỷ USD vốn đầu tư
  • Tên công ty tham chiếu đến Thinking Machines Corporation của Danny Hillis trong những năm 1980
  • Thinking Machines ban đầu đã tạo ra các siêu máy tính Connection Machine
  • Thương hiệu này có sẵn sau khi công ty gốc phá sản năm 1994

Vấn đề cốt lõi: Tính không xác định ở cấp độ batch

Nghiên cứu cho thấy tính không xác định của LLM không chỉ liên quan đến cài đặt temperature hoặc lấy mẫu ngẫu nhiên. Ngay cả khi temperature được đặt bằng không và đầu vào giống hệt nhau, các mô hình vẫn có thể tạo ra đầu ra khác nhau tùy thuộc vào cách các yêu cầu được nhóm lại với nhau trong quá trình xử lý. Điều này xảy ra vì quá trình forward pass thiếu tính bất biến batch - có nghĩa là đầu ra của một yêu cầu phụ thuộc vào kích thước batch và thành phần của các yêu cầu song song được xử lý đồng thời.

Khám phá này thách thức những giả định thông thường về tính xác định của LLM. Nhiều nhà phát triển tin rằng họ có thể đạt được kết quả nhất quán bằng cách chỉ kiểm soát random seed và tham số temperature, nhưng thực tế phức tạp hơn khi xử lý các hệ thống suy luận quy mô sản xuất.

Các Thách Thức Kỹ Thuật Chính Được Xác Định:

  • Tính không xác định ở cấp độ batch ảnh hưởng đến đầu ra ngay cả khi temperature=0
  • Forward pass thiếu "tính bất biến batch" trong các hệ thống sản xuất
  • Sự khác biệt về phần cứng giữa các phiên bản GPU / TPU gây ra những biến đổi
  • Tối ưu hóa compiler có thể sắp xếp lại các phép toán floating-point
  • Các hệ thống suy luận đa GPU tạo thêm độ phức tạp vượt quá thiết lập single-node

Tác động thực tế đối với các nhóm phát triển

Hành vi không xác định tạo ra những thách thức đáng kể cho quy trình phát triển. Các nhà phát triển gặp khó khăn trong việc chia sẻ prompt và hợp tác hiệu quả khi cùng một đầu vào tạo ra các đầu ra khác nhau qua các lần chạy. Điều này khiến việc tạo ra các bài kiểm tra đơn vị đáng tin cậy hoặc khung đánh giá cho các ứng dụng được hỗ trợ bởi AI trở nên gần như không thể.

Vấn đề vượt ra ngoài khả năng tái tạo đơn giản. Trong các ngành được quản lý chặt chẽ như tài chính và dịch vụ pháp lý, hành vi không xác định có thể khiến các hệ thống AI không thể sử dụng được do các yêu cầu tuân thủ đòi hỏi việc tái tạo chính xác các tương tác của người dùng.

Giải pháp kỹ thuật và sự đánh đổi

Thinking Machines đã phát triển các kernel CUDA tùy chỉnh để đảm bảo các hoạt động bất biến batch, cho phép các mô hình tạo ra đầu ra giống hệt nhau bất kể thành phần batch. Tuy nhiên, cách tiếp cận này đi kèm với chi phí hiệu suất và không giải quyết được tất cả các dạng tính không xác định trong các hệ thống AI phức tạp.

Giải pháp hoạt động tốt trong môi trường được kiểm soát nhưng gặp hạn chế trong các cụm tính toán không đồng nhất nơi các cấu hình phần cứng khác nhau vẫn có thể gây ra biến động. Như một thành viên cộng đồng đã lưu ý, các phép toán dấu phẩy động không phải lúc nào cũng có tính giao hoán, và tối ưu hóa trình biên dịch có thể sắp xếp lại các phép toán theo những cách không thể dự đoán.

Cuộc tranh luận trong cộng đồng về tính cần thiết

Nghiên cứu đã khơi mào cuộc tranh luận về việc liệu loại bỏ tính không xác định có phải lúc nào cũng mong muốn hay không. Một số người cho rằng tính ngẫu nhiên là một tính năng cơ bản của xử lý ngôn ngữ tự nhiên, không phải là lỗi cần được sửa chữa. Những người khác chỉ ra rằng các ngữ cảnh khác nhau tự nhiên nên tạo ra các phản hồi khác nhau, và việc ép buộc đầu ra giống hệt nhau thực sự có thể làm giảm tính hữu dụng của mô hình.

Ngôn ngữ tự nhiên có tính mơ hồ. Nó cần phải như vậy. Tôi nghĩ cách tiếp cận ở đây là cố gắng tìm ra cách biến hình tròn thành hình vuông, và tranh luận tại sao hình tròn nên là hình vuông, là sai lầm.

Cuộc thảo luận làm nổi bật sự căng thẳng giữa nhu cầu kỹ thuật thực tế và bản chất vốn có của các mô hình ngôn ngữ như các hệ thống xác suất được thiết kế để xử lý tính mơ hồ và phản hồi phụ thuộc ngữ cảnh.

Nhìn về tương lai

Trong khi công việc của Thinking Machines đại diện cho tiến bộ quan trọng trong việc hiểu hành vi LLM, nó cũng tiết lộ sự phức tạp của việc xây dựng các hệ thống AI đáng tin cậy ở quy mô lớn. Nghiên cứu chứng minh rằng việc đạt được tính xác định thực sự đòi hỏi sự chú ý cẩn thận đến mọi cấp độ của ngăn xếp tính toán, từ sự khác biệt phần cứng đến tối ưu hóa trình biên dịch.

Đối với các tổ chức triển khai LLM trong sản xuất, công việc này cung cấp cả giải pháp và những hiểu biết sâu sắc về những thách thức phía trước. Con đường đến các hệ thống AI đáng tin cậy không chỉ liên quan đến các mô hình tốt hơn - nó đòi hỏi những tiến bộ cơ bản trong cách chúng ta xây dựng và vận hành cơ sở hạ tầng cung cấp năng lượng cho chúng.

Tham khảo: Defining NonDeterminism in LLM Inference