Giải pháp Kỹ thuật NVIDIA Mellanox MQM8790-HS2F: Tối ưu hóa Kết nối Độ trễ Thấp cho Cụm RDMA/HPC/AI
April 10, 2026
Giải pháp kỹ thuật này được thiết kế cho các kiến trúc sư mạng, kỹ sư tiền bán hàng và trưởng nhóm vận hành. Nó cung cấp một hướng dẫn toàn diện để thiết kế, triển khai và vận hành các fabric InfiniBand hiệu suất cao tập trung vào NVIDIA Mellanox MQM8790-HS2F, nhắm mục tiêu các cụm HPC và đào tạo AI chuyên sâu về RDMA.
Các cụm đào tạo AI và tính toán khoa học hiện đại ngày càng đối mặt với kết nối mạng là nút thắt hiệu suất chính. Các fabric Ethernet truyền thống gặp khó khăn với kiểm soát tắc nghẽn, độ trễ cuối cùng và khả năng giảm tải CPU, không đáp ứng được nhu cầu của các mẫu giao tiếp đào tạo phân tán như All-Reduce và All-to-All. Các yêu cầu chính bao gồm: độ trễ đầu cuối dưới micro giây, truyền tải không mất mát, không bỏ gói, hỗ trợ GPU Direct RDMA, và khả năng mở rộng tuyến tính đến hàng nghìn nút. Một kiến trúc chuyển mạch InfiniBand chuyên dụng là cần thiết để giải quyết triệt để các thách thức về hiệu quả kết nối này.
Giải pháp này đề xuất một cấu trúc liên kết Fat-Tree hai lớp để đạt được băng thông không chặn, toàn bộ phân chia. Cả hai lớp leaf và spine đều sử dụng Bộ chuyển mạch InfiniBand MQM8790-HS2F, cung cấp 40 cổng 200Gb/s HDR QSFP56. Lấy ví dụ một cụm 512 nút, thiết kế như sau:
- Lớp Leaf: Mỗi MQM8790-HS2F kết nối 20 nút tính toán (kết nối kép lên) và 8 kết nối lên tới lớp spine.
- Lớp Spine: 8 bộ chuyển mạch MQM8790-HS2F tạo thành mặt phẳng spine, với kết nối full-mesh giữa mọi nút leaf và mọi nút spine.
- Mạng lưu trữ & quản lý: Một mạng con InfiniBand riêng biệt hoặc Ethernet ngoài băng để tránh ảnh hưởng đến lưu lượng tính toán.
Kiến trúc này đảm bảo băng thông 200Gb/s giữa bất kỳ hai nút nào, với nhiều đường dẫn dự phòng đảm bảo rằng một điểm lỗi duy nhất không ảnh hưởng đến kết nối toàn cầu. Mật độ cổng cao của MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 giảm số lượng bộ chuyển mạch cần thiết xuống 50% so với các giải pháp EDR thế hệ trước, đồng thời giảm độ phức tạp của fabric.
NVIDIA Mellanox MQM8790-HS2F đóng vai trò là đơn vị chuyển mạch cốt lõi trong giải pháp này, thực hiện các vai trò quan trọng sau:
- Công cụ chuyển mạch không mất mát: Kiểm soát luồng lớp liên kết InfiniBand loại bỏ mất gói, đảm bảo hiệu quả truyền RDMA.
- Định tuyến thích ứng: Cân bằng động lưu lượng trên nhiều đường dẫn, tránh các điểm nóng tắc nghẽn và cải thiện thông lượng hiệu quả.
- Tính toán trong mạng SHARPv3: Giảm tải các phép toán giảm thiểu cho bộ chuyển mạch, tăng tốc All-Reduce lên 2–3*.
- Mật độ cao & tiêu thụ điện năng thấp: 40 cổng ở tốc độ 200Gb/s với mức tiêu thụ điện năng trên mỗi cổng hàng đầu trong ngành, giảm TCO.
Theo tờ dữ liệu MQM8790-HS2F và thông số kỹ thuật MQM8790-HS2F, bộ chuyển mạch cung cấp dung lượng chuyển mạch tổng cộng 16Tb/s, độ trễ từ cổng đến cổng dưới 130ns và hỗ trợ nguồn và quạt có thể thay nóng cho môi trường sản xuất 24/7. Hơn nữa, thiết bị hoàn toàn tương thích với bộ điều hợp NVIDIA ConnectX-6/7 HDR và nhiều loại cáp quang/đồng HDR, xác nhận sự trưởng thành của hệ sinh thái tương thích MQM8790-HS2F.
Thực hiện theo các bước sau khi triển khai giải pháp:
- Quản lý mạng con: Triển khai các Trình quản lý mạng con (SM) hoạt động-chờ; nền tảng NVIDIA UFM được khuyến nghị để quản lý tập trung và đo từ xa.
- Phân vùng & cấp dịch vụ: Sử dụng khóa phân vùng (P_Key) để cô lập người thuê hoặc khối lượng công việc; cấu hình ánh xạ SL2VL để ưu tiên lưu lượng đào tạo AI.
- Lựa chọn cáp: Sử dụng cáp đồng thụ động cho khoảng cách ngắn (≤3m) và cáp quang chủ động hoặc bộ thu phát cho các đường chạy dài hơn để duy trì tính toàn vẹn tín hiệu.
Đối với các cụm lớn hơn 2.000 nút, có thể áp dụng cấu trúc Fat-Tree ba lớp hoặc Dragonfly+, với lớp lõi tiếp tục sử dụng MQM8790-HS2F làm khối xây dựng. Khi mua thêm đơn vị, hãy kiểm tra giá MQM8790-HS2F và tính sẵn có thông qua các nhà phân phối được ủy quyền; danh sách MQM8790-HS2F để bán đã được xác minh thường bao gồm phần mềm mới nhất và bảo hành. giải pháp bộ chuyển mạch InfiniBand MQM8790-HS2F có thể mở rộng một cách linh hoạt từ nghiên cứu AI của bộ phận đến các trung tâm siêu máy tính exascale.
Vận hành hiệu quả fabric InfiniBand đòi hỏi giám sát chủ động và khắc phục sự cố kỷ luật:
- Giám sát: Sử dụng
ibnetdiscoverđể xác minh cấu trúc liên kết,perfquerycho bộ đếm cổng và đo từ xa UFM để hiển thị tắc nghẽn theo thời gian thực. - Các sự cố & giải pháp phổ biến:
- Liên kết nhấp nháy: Xác minh kết nối cáp và chạy các bài kiểm tra chẩn đoán cáp; thay thế các bộ thu phát quang bị lỗi.
- Chuyển đổi dự phòng trình quản lý mạng con: Đảm bảo các ưu tiên SM được cấu hình chính xác và SM thứ cấp có cơ sở dữ liệu hợp lệ.
- Định tuyến thích ứng không đều: Điều chỉnh các tham số thuật toán định tuyến (ví dụ:
routing_engine=ftree) và bật phân tán tải.
- Mẹo tối ưu hóa: Bật tổng hợp SHARP cho các hoạt động tập thể; điều chỉnh MTU thành 4096 byte cho truyền tải thông điệp lớn; sử dụng Chất lượng dịch vụ để tách lưu lượng điều khiển, dữ liệu và quản lý.
Nâng cấp firmware thường xuyên thông qua cổng hỗ trợ NVIDIA đảm bảo các bản vá bảo mật và cải thiện hiệu suất. Tham khảo tờ dữ liệu MQM8790-HS2F để biết các đường cơ sở hiệu suất chi tiết và các giá trị bộ đếm dự kiến trong điều kiện hoạt động tốt.
NVIDIA Mellanox MQM8790-HS2F cung cấp một nền tảng chuyển mạch InfiniBand sẵn sàng cho tương lai, giải quyết các thách thức cốt lõi của kết nối cụm RDMA/HPC/AI: độ trễ, mất mát, tải CPU và khả năng mở rộng. Bằng cách triển khai kiến trúc Fat-Tree hai lớp được mô tả ở trên, các tổ chức có thể đạt được khả năng mở rộng hiệu suất tuyến tính, thời gian hoàn thành công việc có thể dự đoán được và TCO giảm đáng kể so với các giải pháp Ethernet cũ. Sự kết hợp của bộ chuyển mạch với tốc độ 200Gb/s HDR, mật độ 40 cổng và khả năng tính toán trong mạng khiến nó trở thành một lựa chọn lý tưởng cho các triển khai mới hoặc nâng cấp từng bước từ các fabric EDR/HDR. Đối với các nhóm kiến trúc đang đánh giá các cụm thế hệ tiếp theo, giải pháp bộ chuyển mạch InfiniBand MQM8790-HS2F cung cấp một thiết kế tham chiếu đã được chứng minh, sẵn sàng cho sản xuất.

