Mellanox (NVIDIA) MQM9790-NS2F InfiniBand đang hoạt động | Tối ưu hóa kết nối có độ trễ thấp cho RDMA/HPC/AI
May 28, 2026
Khi các cụm đào tạo AI quy mô lớn và các trung tâm điện toán hiệu năng cao (HPC) đẩy các yêu cầu về băng thông và độ trễ mạng lên mức chưa từng có, các giải pháp Ethernet truyền thống ngày càng phải vật lộn với việc kiểm soát tắc nghẽn và độ trễ đuôi không thể đoán trước trong khối lượng công việc RDMA. Một trung tâm siêu máy tính hàng đầu quốc gia gần đây đã phải đối mặt chính xác với thách thức này khi nâng cấp cụm GPU thế hệ tiếp theo của mình. Sau khi đánh giá nhiều tùy chọn kết nối, nhóm đã chọnMellanox (NVIDIA) MQM9790-NS2Fvới tư cách là công tắc cơ cấu cốt lõi — một quyết định đã làm thay đổi căn bản hồ sơ hiệu suất của cụm của họ.
Bối cảnh & Thách thức: Bức tường khả năng mở rộng
Cấu trúc HDR InfiniBand hiện có của trung tâm siêu máy tính đang hoạt động gần bão hòa. Với hơn 2.000 GPU chạy song song các công việc đào tạo AI, các hoạt động giao tiếp tập thể như all-reduce và all-to-all đang gặp phải tình trạng độ trễ tăng đột biến đáng kể. Mạng đã trở thành nút thắt cổ chai chính, khiến GPU không hoạt động, lãng phí cả tài nguyên tính toán và năng lượng. Các kỹ sư ước tính rằng gần 30% chu trình tính toán đã bị mất do chi phí liên lạc trong quá trình đào tạo phân tán quy mô lớn.
Những gì nhóm cần là một công tắc có khả năng cung cấp400Gb/s mỗi cổng, hỗ trợ RDMA gốc và tăng tốc điện toán trong mạng — tất cả đều đồng thời duy trì khả năng tương thích ngược với cơ sở hạ tầng HDR hiện có. Sau khi xem xét cácBảng dữ liệu MQM9790-NS2FVàThông số kỹ thuật MQM9790-NS2F, họ xác định rằngCông tắc InfiniBand MQM9790-NS2Fcung cấp sự cân bằng lý tưởng về mật độ, hiệu suất và bộ tính năng.
Giải pháp & Triển khai: Nâng cấp vải NDR 64 cổng
Trung tâm đã triển khai bốnMQM9790-NS2F 400Gb/s NDR OSFP 64 cổngchuyển đổi theo cấu trúc liên kết cột sống, kết nối 2.048 GPU trên 64 nút điện toán. Mỗi nút kết nối thông qua một cáp chia OSFP-to-4x100Gb/s, cung cấp băng thông tổng hợp 400Gb/s cho mỗi máy chủ đồng thời tối ưu hóa mật độ quản lý cáp.
| Tham số triển khai | Cấu hình |
|---|---|
| Chuyển đổi mô hình | NVIDIA Mellanox MQM9790-NS2F(4 chiếc) |
| Cấu hình cổng | 64x OSFP, NDR 400Gb/s trên mỗi cổng |
| Tổng số GPU | 2.048 (NVIDIA H100) |
| Tính năng trong mạng | SHARPv3, Định tuyến thích ứng, Kiểm soát tắc nghẽn |
Chìa khóa để triển khai là đảm bảo đầy đủTương thích MQM9790-NS2Fhoạt động với bộ điều hợp điểm cuối HDR hiện có. Khả năng đàm phán tốc độ tự động và dịch lớp liên kết của switch cho phép chiến lược di chuyển theo từng giai đoạn — các nút kế thừa hoạt động ở tốc độ HDR trong khi các máy chủ mới có khả năng NDR tận dụng toàn bộ băng thông 400Gb/s. Trung tâm cũng sử dụng tính năng tổng hợp trong mạng SHARPv3, giảm hơn 65% lưu lượng truy cập đối với kích thước tin nhắn lớn thường thấy trong đào tạo LLM.
Đối với những người đánh giá các nâng cấp tương tự,Giá MQM9790-NS2Fthắc mắc vàCần bán MQM9790-NS2Ftính sẵn có đã tăng lên đáng kể trong số các khách hàng doanh nghiệp và nghiên cứu. Tổng chi phí sở hữu cạnh tranh của bộ chuyển mạch — tính đến số lượng bộ chuyển mạch thấp hơn do mật độ 64 cổng — khiến nó trở thành một lựa chọn hấp dẫn cho cả các dự án xây dựng mới và dự án làm mới.
Kết quả & Lợi ích: Hiệu suất đạt được có thể đo lường được
- Độ trễ giảm hoàn toàn (tin nhắn 1GB):Giảm từ 48µs xuống 19µs (cải thiện 60%)
- Sử dụng GPU hiệu quả:Tăng từ 71% lên 93% trong quá trình đào tạo quy mô lớn
- Thời gian hoàn thành công việc (tương đương GPT-3 175B):Rút ngắn 41%
- Độ trễ đuôi do mạng gây ra (phân vị thứ 99):Cắt từ 210µs xuống dưới 35µs
Là mộtGiải pháp chuyển mạch InfiniBand MQM9790-NS2F, việc triển khai đã chứng minh rằng vải NDR 400Gb/s có thể mang lại những hứa hẹn về mặt lý thuyết. Sự kết hợp giữa các thuật toán kiểm soát tắc nghẽn và định tuyến thích ứng đã loại bỏ các kiểu thu gọn "cố định" gây khó khăn cho kết cấu HDR trước đó trong các giai đoạn giao tiếp giữa tất cả với tất cả.
Tóm tắt & Triển vọng: Nền tảng cho AI Exascale
Sự thành công của trung tâm siêu máy tính vớiMQM9790-NS2Fđã đẩy nhanh lộ trình hướng tới khả năng AI exascale. Họ hiện đang lên kế hoạch cho giai đoạn thứ hai sẽ tăng gấp đôi số lượng GPU lên 4.096 bằng cách sử dụng thêmMQM9790-NS2F 400Gb/s NDR OSFP 64 cổngchuyển đổi trong cấu trúc liên kết cây béo ba tầng. Các tính năng quản lý ngoài băng tần và đo từ xa của bộ chuyển mạch cũng cho phép dự đoán tránh tắc nghẽn, giảm chi phí hoạt động cho nhóm mạng.
Đối với các kiến trúc sư mạng và nhà quản lý CNTT đánh giá các loại vải thế hệ tiếp theo,NVIDIA Mellanox MQM9790-NS2Fđại diện cho một giải pháp trưởng thành, đã được chứng minh trong sản xuất. Cho dù bạn đang xây dựng cụm nghiên cứu AI mới hay nâng cấp cơ sở HPC hiện có, bộ chuyển mạch này đều mang lại nền tảng có độ trễ thấp, băng thông cao cần thiết cho khối lượng công việc song song hiện đại.

