Gã khổng lồ AI Trung Quốc SenseTime đã có bước tiến đáng kể trong lĩnh vực trí tuệ thể hiện với việc giới thiệu nền tảng Wu Neng đột phá tại hội nghị WAIC 2025 . Nền tảng toàn diện này đại diện cho một bước tiến lớn trong việc thu hẹp khoảng cách giữa trí tuệ nhân tạo và khả năng tương tác thế giới thực cho robot và các thiết bị thông minh.
![]() |
---|
CEO Xu Li thuyết trình về nền tảng Wu Neng, đánh dấu bước nhảy vọt đáng kể trong trí tuệ thể hiện tại hội nghị WAIC 2025 |
Công nghệ cốt lõi và kiến trúc
Nền tảng trí tuệ thể hiện Wu Neng được xây dựng dựa trên mô hình thế giới thể hiện độc quyền của SenseTime , đóng vai trò là động cơ cốt lõi thúc đẩy các khả năng của hệ thống. Kiến trúc tinh vi này tận dụng cơ sở hạ tầng tính toán quy mô lớn của SenseTime để cung cấp hỗ trợ tính toán cả phía edge và phía cloud. Nền tảng được thiết kế đặc biệt để tăng cường cho robot và thiết bị thông minh với khả năng nhận thức mạnh mẽ, hệ thống điều hướng thị giác và khả năng tương tác đa phương thức, đẩy các thiết bị đầu cuối thông minh hướng tới mức độ tự chủ và thông minh cao hơn.
Khả năng của Nền tảng
- Nhận thức và hiểu biết về môi trường thế giới thực
- Hệ thống điều hướng thị giác
- Khả năng tương tác đa phương thức
- Hỗ trợ tính toán phía edge và phía cloud
- Tích hợp trực tiếp vào các chip phía edge
Tích hợp phần cứng đa dạng và triển khai
Một trong những tính năng hấp dẫn nhất của nền tảng là khả năng thích ứng đặc biệt trên các cấu hình phần cứng khác nhau. Nền tảng Wu Neng có thể tích hợp liền mạch với các loại hệ thống robot và thiết bị đầu cuối khác nhau, cho phép chúng đạt được khả năng nhận thức và hiểu biết toàn diện về thế giới xung quanh. Tính linh hoạt của hệ thống mở rộng đến các tùy chọn triển khai, vì nó hỗ trợ nhúng trực tiếp vào chip phía edge, cung cấp khả năng thích ứng kịch bản mạnh mẽ làm cho nó phù hợp cho các ứng dụng thế giới thực đa dạng.
Trình diễn trực tiếp và tương tác tự nhiên
Trong buổi thuyết trình tại hội nghị, Chủ tịch và CEO SenseTime Xu Li đã giới thiệu các khả năng của nền tảng thông qua một cuộc trình diễn trực tiếp ấn tượng. Một robot hình người được trang bị động cơ thế giới thể hiện đã thực hiện một bài thuyết trình tự nhiên và hấp dẫn về Vải thiều Chang'an , thể hiện kỹ năng giao tiếp giống con người một cách đáng chú ý. Robot thể hiện khả năng thuyết trình tinh vi, bao gồm lật trang tự động, trả lời các câu hỏi khác nhau từ khán giả và cung cấp tóm tắt định kỳ trong suốt bài thuyết trình. Cuộc trình diễn làm nổi bật khả năng của nền tảng trong việc tạo điều kiện cho các tương tác tự nhiên, hài hước và phù hợp với ngữ cảnh.
Ví dụ Trình diễn
- Robot hình người trình bày bài thuyết trình PPT " Chang'an's Lychees "
- Khả năng tự động lật trang và hỏi đáp
- Lệnh ngôn ngữ tự nhiên: "tìm thứ gì đó trên kệ ở khu vực bếp"
- Điều hướng phức tạp: "vào phòng giải trí, rẽ phải, sau đó mở cửa ra sân"
![]() |
---|
Một cuộc trình diễn về mô hình thế giới được thể hiện cho thấy cách robot có thể tuân theo các hướng dẫn bằng ngôn ngữ tự nhiên để thực hiện các nhiệm vụ |
Tạo video tiên tiến và hiểu biết không gian
Mô hình thế giới thể hiện mở rộng ra ngoài các khả năng tương tác cơ bản để bao gồm các tính năng tạo video tinh vi. Hệ thống có thể tạo ra video đa góc nhìn trong khi duy trì tính nhất quán thời gian và không gian xuất sắc, cho phép máy móc hiểu, tạo ra và chỉnh sửa các biểu diễn của thế giới thực. Khả năng này mở ra những khả năng thú vị cho tương tác thế giới cấp độ không gian, làm cho các kịch bản như chơi game đua xe trong môi trường đường phố thực tế trở nên khả thi về mặt kỹ thuật.
Tính năng Kỹ thuật
- Tạo video đa góc nhìn với tính nhất quán về thời gian và không gian
- Xây dựng thế giới 4D cho con người, vật thể và cảnh vật
- Xử lý lệnh bằng ngôn ngữ tự nhiên
- Tự động tạo ra định vị, chuyển động và hướng dẫn
- Khả năng tương tác và chỉnh sửa trong thế giới thực
Xây dựng thế giới 4D và điều khiển trực quan
Mô hình thế giới thể hiện của SenseTime thể hiện khả năng đáng chú ý trong việc xây dựng các biểu diễn 4D của môi trường thế giới thực bao gồm con người, đối tượng và cảnh vật. Hệ thống phản hồi các lời nhắc ngôn ngữ tự nhiên đơn giản với độ chính xác và tinh vi ấn tượng. Người dùng có thể đưa ra các lệnh đơn giản như tìm thứ gì đó trên kệ trong khu vực nhà bếp hoặc vào phòng giải trí, rẽ phải, sau đó mở cửa ra sân, và mô hình thế giới thể hiện sẽ tự động tạo ra định vị phù hợp, cấu trúc khung xương chuyển động và hướng dẫn thực hiện.
Tầm nhìn cho sự chuyển đổi ngành
Theo CEO Xu Li , mục tiêu cuối cùng của SenseTime với nền tảng trí tuệ thể hiện Wu Neng vượt ra ngoài những thành tựu công nghệ của riêng họ. Công ty nhằm mục đích trao quyền cho các doanh nghiệp trí tuệ thể hiện khác nhau trong các ngành công nghiệp khác nhau, giúp họ thực hiện khát vọng tương tác có ý nghĩa với thế giới thực. Cách tiếp cận hợp tác này cho thấy ý định của SenseTime trong việc thiết lập nền tảng như một công nghệ nền tảng có thể thúc đẩy đổi mới trên toàn bộ hệ sinh thái AI thể hiện rộng lớn hơn.
Việc ra mắt Wu Neng đại diện cho một cột mốc quan trọng trong sự phát triển của trí tuệ nhân tạo thể hiện, có khả năng thúc đẩy sự phát triển của các hệ thống robot tinh vi và có khả năng hơn có thể tích hợp liền mạch vào môi trường và quy trình làm việc của con người.