NVIDIA Mellanox MQM8790-HS2F trong hành động: Tối ưu hóa kết nối liên kết độ trễ thấp cho các cụm RDMA / HPC / AI

April 10, 2026

Bối cảnh & Thách thức: Khi mạng trở thành nút thắt cổ chai

Một tổ chức nghiên cứu AI đang phát triển nhanh chóng đã đối mặt với một vấn đề quen thuộc: cụm hơn 200 GPU của họ, được sử dụng để huấn luyện mô hình ngôn ngữ lớn và mô phỏng động lực học phân tử, gặp phải thời gian hoàn thành tác vụ không thể đoán trước. Mặc dù có các nút tính toán mạnh mẽ, mạng Ethernet 100Gb/s hiện có gặp phải các đỉnh trễ đuôi, mất gói tin dưới các mẫu incast và tải CPU cao do xử lý ngăn xếp TCP/IP truyền thống. Nhóm cần một giải pháp có thể cung cấp độ trễ nhất quán dưới micro giây, hỗ trợ đầy đủ RDMA cho GPU Direct và có thể mở rộng mà không cần nâng cấp toàn bộ hệ thống. Sau khi đánh giá các tùy chọn có sẵn, họ đã chọn 迈络思(NVIDIA Mellanox) MQM8790-HS2F làm khối xây dựng cốt lõi cho mạng cụm thế hệ tiếp theo của họ.

Giải pháp & Triển khai: Tích hợp Bộ chuyển mạch InfiniBand MQM8790-HS2F

Tổ chức đã triển khai bộ chuyển mạch InfiniBand MQM8790-HS2F trong cấu trúc liên kết fat-tree hai tầng, kết nối 128 nút tính toán (mỗi nút được trang bị bộ điều hợp NVIDIA ConnectX-6 HDR) và 4 nút lưu trữ. Với 40 cổng QSFP56 chạy ở tốc độ 200Gb/s HDR, một NVIDIA Mellanox MQM8790-HS2F duy nhất cung cấp dung lượng chuyển mạch không chặn 16Tb/s — đủ để thay thế hai bộ chuyển mạch Ethernet cũ trong khi giảm độ phức tạp của cáp. Việc triển khai tận dụng hỗ trợ gốc của MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 cho RDMA và GPUDirect, cho phép truy cập bộ nhớ trực tiếp giữa các GPU trên các máy chủ khác nhau mà không cần sự can thiệp của CPU.

Các chi tiết triển khai chính bao gồm:

Định tuyến thích ứng để tự động cân bằng lưu lượng trên nhiều đường dẫn, loại bỏ các điểm nóng.
SHARPv3 (Giao thức Tích hợp và Giảm bậc thang có thể mở rộng) để giảm thiểu trong mạng, tăng tốc các hoạt động All-Reduce lên tới 2,5 lần.
Kiểm soát tắc nghẽn ở cấp độ bộ chuyển mạch, ngăn chặn tình trạng chặn đầu hàng (head-of-line blocking) phổ biến trong môi trường Ethernet có tổn hao.

Trước khi mua, nhóm kỹ thuật đã xem xét tờ dữ liệu MQM8790-HS2F và thông số kỹ thuật MQM8790-HS2F để xác nhận khả năng tương thích với cáp và bộ thu phát Mellanox hiện có của họ. Hệ sinh thái tương thích MQM8790-HS2F — bao gồm cáp quang và cáp đồng HDR — cho phép họ tái sử dụng 40% khoản đầu tư kết nối trước đó, giảm đáng kể rào cản nâng cấp.

Kết quả & Lợi ích: Hiệu suất và Hiệu quả được Đo lường

Sau khi di chuyển sang mạng dựa trên MQM8790-HS2F, tổ chức đã ghi nhận ba loại cải tiến:

Giảm độ trễ: Độ trễ ping-pong MPI trung bình giảm từ 2,1µs (Ethernet RoCE) xuống 0,82µs, với độ trễ đuôi hầu như bị loại bỏ.
Thông lượng tác vụ: Các tác vụ huấn luyện phân tán (dựa trên NCCL) hoàn thành nhanh hơn 37% do giảm chi phí giao tiếp và tăng tốc SHARPv3.
Giảm tải CPU: RDMA qua InfiniBand giảm mức sử dụng CPU cho mạng từ ~15% xuống dưới 2%, giải phóng các lõi cho tính toán.

Trong một bài kiểm tra hiệu năng giao tiếp tất cả-với-tất cả 128 GPU, giải pháp bộ chuyển mạch InfiniBand MQM8790-HS2F duy trì 198Gb/s mỗi cổng với tổn thất gói tin bằng không, so với 112Gb/s với tổn thất 1,2% trên mạng Ethernet trước đó. Đối với các mô phỏng tài chính do cùng một nhóm thực hiện, sự biến động của tác vụ đã giảm 78%, cho phép SLA chặt chẽ hơn và thời gian chạy có thể dự đoán được.

Tóm tắt & Triển vọng: Một khoản đầu tư sẵn sàng cho tương lai

Việc triển khai thực tế này cho thấy MQM8790-HS2F không chỉ là một sản phẩm ấn tượng trên giấy tờ — nó mang lại lợi ích hữu hình cho các khối lượng công việc HPC và AI trong sản xuất. Sự kết hợp giữa thông lượng 200Gb/s HDR, 40 cổng mật độ cao và khả năng tính toán trong mạng tiên tiến đã biến đổi kinh tế của cụm bằng cách giảm cả thời gian hoàn thành tác vụ và chi phí vận hành. Đối với các nhà lãnh đạo CNTT đang đánh giá giá MQM8790-HS2F so với lợi ích hiệu suất, nghiên cứu điển hình này gợi ý thời gian hoàn vốn dưới 12 tháng chỉ dựa trên những cải thiện về hiệu quả tính toán.

Khi tổ chức có kế hoạch tăng gấp đôi số lượng GPU lên hơn 400 nút, họ đã phân bổ ngân sách cho các đơn vị MQM8790-HS2F để bán bổ sung để duy trì kiến trúc fat-tree không chặn. Khả năng của bộ chuyển mạch trong việc kết hợp tốc độ HDR và EDR đảm bảo một lộ trình di chuyển suôn sẻ khi các bộ điều hợp cũ dần được thay thế. Đối với các kiến trúc sư thiết kế các cụm tập trung vào RDMA thế hệ tiếp theo, NVIDIA Mellanox MQM8790-HS2F cung cấp một xương sống đã được chứng minh, sẵn sàng cho sản xuất, có thể mở rộng từ nghiên cứu AI của bộ phận đến siêu máy tính exascale.