Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Thực hành ứng dụng chuyển đổi InfiniBand

January 6, 2026

Bối cảnh và Thách thức: Nút thắt cổ chai Mạng trong Điện toán Hiện đại

Trong cuộc đua khám phá khoa học và đột phá AI, khả năng tính toán của một tổ chức nghiên cứu hàng đầu đang bị kìm hãm không phải do thiếu sức mạnh xử lý thô, mà do cấu trúc mạng của họ. Cơ sở hạ tầng HDR InfiniBand hiện có của họ, mặc dù có khả năng, đang gặp khó khăn trong việc theo kịp nhu cầu giao tiếp đồng bộ, lớn của các cụm NVIDIA DGX mới được triển khai và khối lượng công việc HPC truyền thống. Các nhà nghiên cứu phải đối mặt với sự chậm trễ đáng kể về thời gian hoàn thành công việc, với độ trễ và tắc nghẽn mạng trong các mẫu giao tiếp all-to-all trở thành nút thắt cổ chai chính.

Thách thức là hai mặt: thứ nhất, giảm đáng kể độ trễ cho các hoạt động Truy cập Bộ nhớ Trực tiếp Từ xa (RDMA) rất quan trọng đối với các mô phỏng HPC dựa trên MPI. Thứ hai, cung cấp một cấu trúc liền mạch, không chặn cho các công việc huấn luyện AI, đòi hỏi sự đồng bộ hóa tham số liên tục trên hàng trăm GPU. Tổ chức cần một giải pháp có khả năng chống chịu trong tương lai, có thể xử lý tốc độ NDR 400Gb/s trong khi hoàn toàn tương thích với hệ sinh thái hiện có của họ, đảm bảo một lộ trình nâng cấp hiệu quả về chi phí mà không cần đại tu hoàn toàn.

Giải pháp và Triển khai: Triển khai Fabric 920-9B210-00FN-0D0

Sau khi đánh giá kỹ lưỡng, tổ chức đã chọn NVIDIA Mellanox 920-9B210-00FN-0D0 làm nền tảng cho cấu trúc hiệu suất cao mới của họ. Giải pháp tập trung vào việc triển khai nhiều bộ chuyển mạch 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR để tạo thành một lớp xương sống băng thông cao, độ trễ thấp, kết nối tất cả các nút tính toán và lưu trữ.

Việc triển khai được cấu trúc dưới dạng một cấu trúc liên kết cây béo hai tầng lai để tối đa hóa băng thông hai chiều và giảm thiểu số lượng bước nhảy. Các khía cạnh chính của việc triển khai bao gồm:

Lõi Fabric: Một lớp xương sống được xây dựng hoàn toàn bằng các bộ chuyển mạch 920-9B210-00FN-0D0, cung cấp xương sống NDR 400Gb/s.
Tích hợp liền mạch: Tận dụng khả năng tương thích ngược của bộ chuyển mạch, các bộ chuyển mạch lá và NIC HDR hiện có đã được kết nối, bảo vệ các khoản đầu tư trước đó trong khi cho phép nâng cấp nút gia tăng lên NDR.
Quản lý nâng cao: Toàn bộ fabric, bao gồm các đơn vị bộ chuyển mạch InfiniBand 920-9B210-00FN-0D0 OPN mới, được quản lý dưới một bảng điều khiển duy nhất bằng NVIDIA UFM®, cho phép đo từ xa hiệu suất chính xác, cung cấp fabric tự động và cách ly lỗi nhanh chóng.
Xác thực: Nhóm CNTT đã tham khảo kỹ lưỡng bảng dữ liệu 920-9B210-00FN-0D0 và thông số kỹ thuật chính thức để xác thực phạm vi cáp, yêu cầu về điện và làm mát trong trung tâm dữ liệu của họ, đảm bảo hiệu suất tối ưu.

Kiến trúc này đã thiết lập một giải pháp bộ chuyển mạch InfiniBand 920-9B210-00FN-0D0 OPN thống nhất, phục vụ cả khối lượng công việc HPC cổ điển và AI mới nổi của tổ chức trên một mạng duy nhất, mạnh mẽ.

Hiệu ứng và Lợi ích: Những lợi ích có thể định lượng được về hiệu suất và hiệu quả

Tác động của việc triển khai 920-9B210-00FN-0D0 đã được đo lường ngay lập tức và mang tính thay đổi trên nhiều khía cạnh hoạt động của họ.

Số liệu	Trước khi triển khai	Sau khi triển khai 920-9B210-00FN-0D0
Độ trễ MPI trung bình (Khứ hồi)	~0,7 micro giây	~0,5 micro giây
Thời gian hoàn thành công việc huấn luyện AI (Mô hình lớn)	5,2 ngày	3,8 ngày(Giảm 27%)
Sử dụng Fabric trong thời gian cao điểm All-to-All	Thường vượt quá 85%, gây tắc nghẽn	Ổn định dưới 60% ở tốc độ NDR
Các tác vụ hành chính (Cấu hình lại Fabric)	Các quy trình thủ công, tốn thời gian	Tự động thông qua tích hợp UFM®

Lợi ích quan trọng nhất là việc giảm đáng kể thời gian chạy ứng dụng. Các mô phỏng HPC, đặc biệt là những mô phỏng liên quan đến động lực học chất lỏng phức tạp, đã thấy sự cải thiện 20-30% do độ trễ MPI thấp hơn và nhất quán hơn. Đối với các nhóm AI, hiệu suất gần như lý thuyết của RDMA trên fabric mới có nghĩa là tài nguyên GPU đã được bão hòa hoàn toàn với tính toán, không bị dừng lại để chờ chuyển mạng. Trong khi đánh giá tổng giá 920-9B210-00FN-0D0 là một phần của việc mua sắm, kết quả là sự tăng tốc trong kết quả nghiên cứu đã mang lại ROI hấp dẫn, vượt xa chi phí vốn ban đầu.

Kết luận và Triển vọng: Bản thiết kế cho Cơ sở hạ tầng trong tương lai

Việc ứng dụng thành công NVIDIA Mellanox 920-9B210-00FN-0D0 trong môi trường nghiên cứu này đóng vai trò là một bản thiết kế mạnh mẽ cho bất kỳ tổ chức nào phải đối mặt với những thách thức kết nối tương tự. Nó chứng minh rằng việc đầu tư vào một cấu trúc mạng tiên tiến không phải là một chi phí phụ trợ mà là một yếu tố nhân lên chiến lược cho các khoản đầu tư tính toán.

Việc triển khai của tổ chức chứng minh rằng 920-9B210-00FN-0D0 không chỉ là một bộ chuyển mạch; nó là một nền tảng cho phép hội tụ. Nó kết hợp liền mạch các khối lượng công việc HPC và AI do RDMA điều khiển trên một mạng duy nhất, siêu nhạy, đơn giản hóa các hoạt động và tăng tốc khám phá. Khi công nghệ này trở nên phổ biến hơn để bán, nó đặt ra một tiêu chuẩn mới cho những gì có thể trong việc phân cụm hiệu suất cao.

Trong tương lai, khả năng mở rộng vốn có và khoảng không hiệu suất của cấu trúc NDR 400Gb/s có nghĩa là tổ chức có vị thế tốt để tích hợp các tài nguyên tính toán mạnh mẽ hơn trong tương lai. 920-9B210-00FN-0D0 đã loại bỏ hiệu quả mạng như một nút thắt cổ chai, cho phép các nhà nghiên cứu chỉ tập trung vào giới hạn của thuật toán và trí tưởng tượng của họ.