Thiết bị chuyển mạch InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 trong sản xuất

April 15, 2026

tin tức mới nhất của công ty về Thiết bị chuyển mạch InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 trong sản xuất
Bối cảnh & Thách thức: Bức tường mở rộng quy mô trong các cụm huấn luyện AI

Một viện nghiên cứu AI hàng đầu ở Đông Á đã đối mặt với một nút thắt cổ chai phổ biến nhưng quan trọng. Cụm 512 GPU của họ, được sử dụng để huấn luyện các mô hình ngôn ngữ lớn và mô phỏng động lực học phân tử, đang gặp phải sự suy giảm hiệu suất nghiêm trọng khi các tác vụ mở rộng quy mô. Nguyên nhân gốc rễ là do kiến trúc mạng Ethernet 100Gb/s cũ, nơi chi phí TCP/IP và mất gói tin trong các sự kiện incast gây ra thời gian nhàn rỗi của GPU lên tới 35%. Nhóm nghiên cứu cần một kiến trúc mạng không mất gói, độ trễ cực thấp, có thể hỗ trợ RDMA và mở rộng quy mô lên hàng nghìn nút mà không ảnh hưởng đến hiệu suất xác định. Sau khi đánh giá nhiều giải pháp, họ đã chọn Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 làm lõi cho kiến trúc spine-leaf mới của họ.

Giải pháp & Triển khai: Tích hợp 920-9B210-00FN-0D0 vào Kiến trúc NDR

Việc triển khai tập trung vào 920-9B210-00FN-0D0 làm lớp spine, với 32 switch leaf kết nối 512 GPU NVIDIA A100 thông qua bộ điều hợp ConnectX-7. Mỗi switch 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR cung cấp băng thông 400Gb/s mỗi cổng, gấp đôi băng thông của các giải pháp HDR trước đó trong khi vẫn duy trì độ trễ chuyển mạch dưới micro giây. Mã OPN của switch InfiniBand 920-9B210-00FN-0D0 chính thức đã đơn giản hóa việc mua sắm và đảm bảo tính nhất quán của firmware trên tất cả các thiết bị. Các kỹ sư mạng đã sử dụng bảng dữ liệu 920-9B210-00FN-0D0 chi tiết và Thông số kỹ thuật 920-9B210-00FN-0D0 để xác thực các yêu cầu về nguồn điện và nhiệt, cho phép tích hợp liền mạch vào các rack 19" hiện có. Quan trọng là, switch hoàn toàn tương thích 920-9B210-00FN-0D0 với cả kiến trúc HDR hiện có và các điểm cuối NDR mới hơn, cho phép di chuyển theo từng giai đoạn.

Kết quả Hiệu suất & Lợi ích Vận hành
  • Tăng hiệu quả RDMA: Với NVIDIA Mellanox 920-9B210-00FN-0D0 cho phép kiểm soát tắc nghẽn dựa trên phần cứng, độ trễ ghi RDMA giảm từ 12µs xuống còn 1.2µs. GPU direct RDMA (GDR) trở nên hoàn toàn hiệu quả, loại bỏ các nút thắt cổ chai bộ nhớ CPU.
  • Tăng tốc ứng dụng HPC: Một mã mô hình thời tiết quan trọng (dựa trên MPI) đã có sự cải thiện hiệu suất gấp 2,7 lần nhờ định tuyến thích ứng của switch và các chức năng offload tập thể SHARP v2.
  • Thông lượng huấn luyện AI: Đối với một tác vụ huấn luyện LLM với 175 tỷ tham số, kiến trúc mạng mới đã giảm thời gian all-reduce xuống 68%, cải thiện mức sử dụng GPU tổng thể từ 62% lên 91%.
  • Đơn giản hóa Vận hành: giải pháp OPN của switch InfiniBand 920-9B210-00FN-0D0 đã tích hợp với nền tảng UFM của NVIDIA, cung cấp dữ liệu đo từ xa theo thời gian thực và cảnh báo lỗi dự đoán. Các nhà quản lý CNTT báo cáo giảm 50% thời gian khắc phục sự cố liên quan đến mạng.
Thông tin về Chi phí & Khả năng sẵn có

Khi đánh giá dự án, viện nghiên cứu đã so sánh giá 920-9B210-00FN-0D0 với các giải pháp Ethernet cạnh tranh. Mặc dù chi phí ban đầu cao hơn, tổng chi phí sở hữu (TCO) lại nghiêng về InfiniBand do mức sử dụng GPU cao hơn và công suất tiêu thụ thấp hơn trên mỗi Gb/s. Các thiết bị có sẵn dưới dạng 920-9B210-00FN-0D0 để bán thông qua các kênh phân phối của NVIDIA, với thời gian chờ ngắn hơn đáng kể so với các switch NDR khác. Thông số kỹ thuật 920-9B210-00FN-0D0 chi tiết cũng xác nhận hỗ trợ nguồn điện dự phòng và quạt có thể thay nóng, đáp ứng các yêu cầu về độ tin cậy của viện cho hoạt động nghiên cứu AI 24/7.

Thông số kỹ thuật chính nổi bật
Tham số Chi tiết
Mẫu mã NVIDIA Mellanox 920-9B210-00FN-0D0
Tốc độ cổng 400Gb/s NDR (mỗi cổng)
Mã OPN cơ bản Mã OPN của switch InfiniBand 920-9B210-00FN-0D0
Cấu hình đầy đủ 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR
Tóm tắt & Triển vọng: Tiêu chuẩn cho Kiến trúc AI Thế hệ mới

Viện nghiên cứu AI hiện đã chuẩn hóa trên 920-9B210-00FN-0D0 cho tất cả các lần mở rộng cụm trong tương lai, bao gồm cả kiến trúc NDR200 với 2.048 GPU đã lên kế hoạch. Trường hợp thực tế này chứng minh rằng NVIDIA Mellanox 920-9B210-00FN-0D0 không chỉ là một switch — nó là một thành phần nền tảng để đạt được khả năng mở rộng hiệu suất tuyến tính trong môi trường AI và HPC. Đối với các kiến trúc sư và nhà quản lý CNTT đang tìm cách loại bỏ các nút thắt cổ chai mạng, giải pháp OPN của switch InfiniBand 920-9B210-00FN-0D0 mang đến một con đường đã được chứng minh, sẵn sàng cho sản xuất.