NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch Hoạt Động: Tối Ưu Hóa Kết Nối Độ Trễ Thấp

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch Hoạt Động: Tối Ưu Hóa Kết Nối Độ Trễ Thấp Cho Các Cụm RDMA/HPC/AI

Trong quá trình huấn luyện AI, các mô phỏng tính toán hiệu năng cao (HPC) và lưu trữ phân tán quy mô lớn, độ trễ mạng và băng thông thường quyết định giới hạn trên của hiệu quả cụm. Để giúp các tổ chức vượt qua nút thắt cổ chai này, MQM9790-NS2F switch InfiniBand từ NVIDIA Mellanox đang trở thành thành phần kết nối cốt lõi trong nhiều triển khai AI và HPC. Bài viết này đi sâu vào quá trình nâng cấp thực tế của một cụm huấn luyện AI quy mô lớn, minh họa cách switch này mang lại mạng RDMA độ trễ thấp và hiệu suất tăng trưởng có thể đo lường được.

Bối Cảnh & Thách Thức: Áp Lực Mạng Từ Ngàn GPU Đến Chục Ngàn GPU

Một tổ chức nghiên cứu hàng đầu trước đây vận hành một cụm ngàn GPU để huấn luyện mô hình ngôn ngữ lớn và mô phỏng thời tiết. Khi các tham số mô hình tăng từ hàng chục tỷ lên hàng trăm tỷ, mạng InfiniBand HDR 200Gb/s hiện có bắt đầu gặp tình trạng tắc nghẽn và chi phí giao tiếp tăng cao. Các thao tác All-Reduce giữa các nút mất nhiều thời gian hơn đáng kể, và các GPU thường xuyên ở trạng thái chờ đợi truyền dữ liệu mạng. Các kiến trúc sư khẩn cấp cần một giải pháp cung cấp mật độ cổng cao hơn, cân bằng tải chi tiết hơn và tương thích hoàn toàn với cơ sở hạ tầng RDMA hiện có.

Sau khi đánh giá kỹ lưỡng, nhóm đã chọn một fabric InfiniBand cấp NDR dựa trên NVIDIA Mellanox MQM9790-NS2F. Với 64 cổng OSFP, mỗi cổng hoạt động ở tốc độ đường truyền 400Gb/s, switch này hoàn toàn đáp ứng nhu cầu thông lượng của các máy chủ GPU thế hệ tiếp theo.

Giải Pháp & Triển Khai: NDR Fabric + Mạng RDMA Không Mất Mát

Trong thiết kế mới, mỗi máy chủ GPU được trang bị bộ điều hợp ConnectX-7 hai cổng, được kết nối lên hai switch lá. Ở lõi, các switch MQM9790-NS2F 400Gb/s NDR 64-port OSFP tạo thành một cấu trúc Fat-Tree hai lớp sử dụng kiến trúc Clos không chặn. Định tuyến thích ứng và kiểm soát tắc nghẽn được kích hoạt, tận dụng RDMA InfiniBand gốc để truyền dữ liệu trực tiếp từ bộ nhớ GPU đến bộ nhớ GPU từ xa, bỏ qua chi phí CPU và ngăn xếp phần mềm.

Sử dụng cổng & khả năng tương thích: Các bộ điều hợp HDR hiện có có thể hoạt động ở tốc độ giảm, bảo vệ các khoản đầu tư trước đó. Danh sách MQM9790-NS2F tương thích bao gồm các máy chủ GPU và hệ thống lưu trữ phổ biến, không yêu cầu sửa đổi trình điều khiển trong quá trình triển khai.
Hoạt động thông minh: Hệ thống đo lường từ xa tích hợp giám sát lỗi liên kết và tắc nghẽn theo thời gian thực, giúp các nhóm nhanh chóng cô lập các sự cố mô-đun quang hoặc cáp và giảm đáng kể thời gian trung bình để sửa chữa.

Kết Quả & Lợi Ích: Thời Gian Lặp Huấn Luyện Giảm 38%, Chi Phí Mạng Giảm Còn 8%

Sau khi nâng cấp, tổ chức đã chạy các bài kiểm tra so sánh trên các khối lượng công việc sản xuất. Trong một tác vụ tiền huấn luyện kiểu GPT với 100 tỷ tham số, cụm được xây dựng trên MQM9790-NS2F InfiniBand switch đã giảm thời gian lặp từ 2,8 giây xuống 1,73 giây — cải thiện 38%. Tỷ lệ giao tiếp mạng trong tổng độ trễ giảm từ 22% xuống 8%, có nghĩa là các GPU dành nhiều thời gian hơn đáng kể cho việc tính toán hữu ích. Nhờ tính năng tính toán trong mạng SHARPv3 bên trong switch NDR, băng thông All-Reduce gần như tăng gấp đôi.

Về phía lưu trữ, NVMe qua InfiniBand độ trễ thấp đã tăng băng thông đọc/ghi tổng hợp của hệ thống tệp song song lên 2,3 lần. Thời gian lưu và khôi phục điểm kiểm tra giảm từ 12 phút xuống dưới 5 phút. Các số liệu này được ghi lại trong các báo cáo thử nghiệm nội bộ và phù hợp với thông số kỹ thuật MQM9790-NS2F cơ bản.

Tóm tắt & Triển Vọng: NDR Interconnect Là Lựa Chọn Mặc Định Cho Cơ Sở Hạ Tầng AI Thế Hệ Mới

Trường hợp này chứng minh rõ ràng rằng đối với các cụm RDMA/HPC/AI quy mô lớn, việc áp dụng giải pháp switch MQM9790-NS2F InfiniBand giúp loại bỏ hiệu quả tình trạng tắc nghẽn mạng, tăng cường sử dụng GPU và đơn giản hóa hoạt động. Đối với các kiến trúc sư đang lên kế hoạch cho các cụm chục ngàn GPU, datasheet MQM9790-NS2F là tài liệu tham khảo thiết yếu để đánh giá công suất, mật độ cổng và bộ tính năng. Mẫu này hiện đang được sản xuất hàng loạt; đối với các yêu cầu về giá MQM9790-NS2F hoặc MQM9790-NS2F để bán, vui lòng liên hệ với các đối tác được ủy quyền của NVIDIA. Khi các khối lượng công việc trong tương lai thúc đẩy nhu cầu hướng tới 800Gb/s trở lên, nền tảng chuyển mạch NDR sẽ tiếp tục đóng vai trò quan trọng trong việc mở khóa tiềm năng tính toán.