Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 Tài liệu kỹ thuật: Tối ưu hóa kết nối độ trễ thấp

April 14, 2026

Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 Tài liệu kỹ thuật: Tối ưu hóa kết nối độ trễ thấp

Tài liệu kỹ thuật này dành cho các kiến trúc sư mạng, kỹ sư tiền bán hàng và quản lý vận hành, cung cấp một giải pháp toàn diện tập trung vào Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 InfiniBand switch. Chúng tôi xem xét cách nền tảng này cho phép độ trễ cực thấp, có thể dự đoán được cho các khối lượng công việc chuyên sâu về RDMA trong môi trường cụm HPC và AI.

1. Bối cảnh dự án & Phân tích yêu cầu

Các framework đào tạo AI hiện đại (PyTorch DDP, DeepSpeed, Megatron) và các mã mô phỏng HPC (CFD, mô hình hóa thời tiết, động lực học phân tử) phụ thuộc nhiều vào các nguyên tắc giao tiếp tập thể. Các fabric Ethernet truyền thống đưa ra ba vấn đề cơ bản: mất gói tin do tắc nghẽn incast, độ trễ biến đổi từ chuyển mạch store-and-forward và chi phí CPU cao từ xử lý ngăn xếp TCP/IP. Những vấn đề này gây ra thời gian nhàn rỗi của GPU từ 30-50% trong đào tạo phân tán quy mô lớn, trực tiếp dẫn đến thời gian giải pháp kéo dài và chi phí vận hành tăng lên.

920-9B110-00FH-0D0 giải quyết những thách thức này thông qua công nghệ InfiniBand gốc, cung cấp RDMA dựa trên phần cứng, chuyển mạch cut-through và kiểm soát luồng dựa trên tín dụng. Các trường hợp sử dụng mục tiêu bao gồm các phòng thí nghiệm nghiên cứu AI quản lý các cụm GPU từ 64-1.024, các trung tâm HPC yêu cầu độ trễ MPI dưới micro giây và các nhà cung cấp đám mây xây dựng các dòng instance AI bare-metal.

2. Thiết kế kiến trúc mạng tổng thể

Kiến trúc được đề xuất của chúng tôi sử dụng cấu trúc liên kết fat-tree hai tầng (folded Clos), cân bằng băng thông phân chia, chi phí và khả năng mở rộng. Các tham số thiết kế giả định lên đến 512 nút tính toán, mỗi nút được trang bị bộ điều hợp HDR ConnectX-6 cổng kép.

Tầng Thiết bị Cấu hình cổng Số lượng (512 nút)
920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR 40x HDR xuống + 8x HDR lên 16 đơn vị
Xương sống NVIDIA Mellanox 920-9B110-00FH-0D0 40x HDR (chỉ xuống) 8 đơn vị

Cấu hình này cung cấp băng thông phân chia đầy đủ 200Gb/s mỗi nút, hiệu suất không chặn cho các mẫu giao tiếp tất cả-với-tất cả và độ trễ thấp tới 130ns mỗi hop (cut-through). Giải pháp OPN switch InfiniBand 920-9B110-00FH-0D0 hỗ trợ cả SKU tiêu chuẩn và tùy chỉnh, cho phép cấu hình breakout cổng linh hoạt (ví dụ: 4x 50Gb/s mỗi cổng HDR).

3. Vai trò & Tính năng chính của 920-9B110-00FH-0D0

Trong kiến trúc được đề xuất, NVIDIA Mellanox 920-9B110-00FH-0D0 đóng vai trò là yếu tố fabric hợp nhất trên cả hai tầng lá và xương sống. Các yếu tố khác biệt kỹ thuật chính bao gồm:

  • RDMA dựa trên phần cứng: Bỏ qua kernel và CPU hoàn toàn, cho phép truyền dữ liệu từ bộ nhớ sang bộ nhớ với tốc độ đường truyền với độ trễ <1μs.
  • Định tuyến thích ứng (AR): Định tuyến lại gói tin một cách động dựa trên tắc nghẽn cổng theo thời gian thực, phân phối lưu lượng trên tất cả các đường dẫn có sẵn mà không cần sắp xếp lại gói tin.
  • Kiểm soát tắc nghẽn: Các cơ chế thông báo và giới hạn ở cấp độ phần cứng ngăn chặn tắc nghẽn đầu hàng (head-of-line blocking), như được chi tiết trong datasheet 920-9B110-00FH-0D0.
  • Telemetri sắc nét: Các bộ giám sát phần cứng tích hợp cung cấp bộ đệm trên mỗi cổng, độ trễ và bộ đếm lỗi để quản lý chủ động.

Các kỹ sư đánh giá việc mua sắm nên xem xét thông số kỹ thuật 920-9B110-00FH-0D0 đầy đủ, xác nhận hỗ trợ lên đến 40 cổng HDR (mỗi cổng 200Gb/s) trong một yếu tố dạng 1U, với mức tiêu thụ điện năng điển hình dưới 300W. Hệ sinh thái tương thích 920-9B110-00FH-0D0 bao gồm tất cả các mô-đun quang HDR tiêu chuẩn (QSFP56) và cáp đồng thụ động lên đến 5 mét.

4. Khuyến nghị triển khai & Mở rộng

Để triển khai ban đầu, chúng tôi đề xuất một cách tiếp cận theo từng giai đoạn:

  • Giai đoạn 1 (Thử nghiệm – 32 nút): Triển khai 1 switch lá (920-9B110-00FH-0D0) trong cấu hình switch đơn. Xác thực hiệu suất RDMA bằng ib_write_bw và các benchmark MPI. Tham khảo trạng thái 920-9B110-00FH-0D0 để bán để đảm bảo thời gian chờ phù hợp với các mốc dự án.
  • Giai đoạn 2 (Sản xuất – 128 nút): Triển khai fat-tree đầy đủ với 4 switch lá + 2 switch xương sống. Kích hoạt định tuyến thích ứng và kiểm soát tắc nghẽn. Chạy các bài kiểm tra căng thẳng kéo dài với các bài kiểm tra NCCL (all-reduce, all-gather).
  • Giai đoạn 3 (Mở rộng quy mô – 512+ nút): Mở rộng lên 16 switch lá + 8 switch xương sống. Cân nhắc nâng cấp lên kiến trúc multi-fabric (mạng tính toán/lưu trữ riêng biệt). Đánh giá giá 920-9B110-00FH-0D0 trên mỗi cổng so với việc thêm nhiều switch hơn so với các mô hình radix cao hơn.

Khi tính toán tổng chi phí sở hữu, lưu ý rằng 920-9B110-00FH-0D0 loại bỏ nhu cầu về các switch TOR riêng biệt, độ phức tạp cấu hình ECN (không giống như RoCE) và giấy phép quản lý tắc nghẽn độc quyền — tất cả đều được bao gồm gốc trong InfiniBand.

5. Vận hành, Giám sát, Khắc phục sự cố & Tối ưu hóa

Quản lý sản xuất các fabric NVIDIA Mellanox 920-9B110-00FH-0D0 dựa vào hai công cụ chính: OpenSM (subnet manager) để khởi tạo fabric cơ bản và NVIDIA UFM (Unified Fabric Manager) cho viễn thông và tự động hóa quy mô doanh nghiệp.

  • Kiểm tra sức khỏe hàng ngày: Sử dụng `ibnetdiscover` để xác minh cấu trúc liên kết fabric, `ibstat` để giám sát trạng thái cổng và `perfquery` để theo dõi bộ đếm lỗi.
  • Tinh chỉnh hiệu suất: Đặt định tuyến thích ứng thành "static" để có độ trễ có thể dự đoán được hoặc "dynamic" để có thông lượng tối đa. Điều chỉnh ánh xạ SL2VL để ưu tiên lưu lượng điều khiển so với dữ liệu.
  • Khắc phục sự cố phổ biến: Lỗi CRC liên kết thường chỉ ra các vấn đề về cáp/tính toàn vẹn tín hiệu — tham khảo datasheet 920-9B110-00FH-0D0 cho các SKU cáp hợp lệ. Thời gian chờ của subnet manager thường yêu cầu điều chỉnh `max_hop_count` cho các fabric lớn.
  • Lập kế hoạch dung lượng: Tận dụng phân tích dự đoán của UFM để dự báo mức sử dụng cổng và xác định các điểm nóng trước khi chúng ảnh hưởng đến các tác vụ. InfiniBand switch OPN 920-9B110-00FH-0D0 cho phép nâng cấp quang học tại hiện trường linh hoạt để thích ứng với nhu cầu băng thông thay đổi.

Đối với các tổ chức đánh giá nhiều nhà cung cấp, việc so sánh giá 920-9B110-00FH-0D0 với các switch HDR thay thế nên tính đến sự đơn giản trong vận hành — ngăn xếp tích hợp theo chiều dọc, một nhà cung cấp của InfiniBand giảm thời gian gỡ lỗi giữa các nhóm ước tính 40%.

6. Tóm tắt & Đánh giá giá trị

Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 cung cấp một nền tảng sẵn sàng cho sản xuất cho các cụm RDMA/HPC/AI yêu cầu kết nối độ trễ thấp có thể dự đoán được. Các đề xuất giá trị chính bao gồm:

  • Hiệu suất: Lên đến 200Gb/s mỗi cổng với độ trễ chuyển mạch dưới 130ns, cho phép mở rộng quy mô GPU tuyến tính lên đến hàng nghìn nút.
  • Hiệu quả hoạt động: Các offload phần cứng gốc loại bỏ sự can thiệp của CPU cho I/O mạng, giải phóng các lõi cho tính toán.
  • Sẵn sàng cho tương lai: Tương thích ngược với EDR (100Gb/s) và tương thích tiến với NDR (400Gb/s) thông qua dịch tốc độ cổng.
  • Tổng chi phí sở hữu: Khi tính toán giá 920-9B110-00FH-0D0 so với các giải pháp Ethernet thay thế, hãy bao gồm khoản tiết kiệm từ thời gian nhàn rỗi của GPU giảm (phục hồi điển hình 15-25%) và loại bỏ giấy phép kiểm soát tắc nghẽn độc quyền.

Các kiến trúc sư được khuyến khích tải xuống datasheet 920-9B110-00FH-0D0 đầy đủ và tham khảo thông số kỹ thuật 920-9B110-00FH-0D0 chính thức cho các ma trận cáp và lập ngân sách năng lượng. Đối với các triển khai sản xuất, hãy xác minh tính khả dụng của 920-9B110-00FH-0D0 để bán thông qua mạng lưới đối tác của NVIDIA và yêu cầu phòng thí nghiệm xác nhận để kiểm tra cấu trúc liên kết tùy chỉnh.