Báo cáo kỹ thuật: Giải pháp chuyển mạch InfiniBand NVIDIA Mellanox 920-9B210-00FN-0D0

January 6, 2026

1. Bối cảnh Dự án và Phân tích Yêu cầu

Sự phát triển của khối lượng công việc tính toán hướng tới việc huấn luyện AI quy mô exascale và các mô phỏng HPC độ trung thực cao đã thay đổi cơ bản nút thắt cổ chai về hiệu suất từ tính toán sang liên kết. Các cụm phụ thuộc RDMA hiện đại đòi hỏi một cấu trúc không chỉ cung cấp băng thông cao mà còn có độ trễ cực thấp, xác định, độ rung tối thiểu và khả năng mở rộng liền mạch. Các mạng kế thừa thường gây ra độ trễ thay đổi, mất gói do tắc nghẽn và độ phức tạp trong quản lý, điều này trực tiếp chuyển thành thời gian giải quyết lâu hơn, tài nguyên GPU/CPU chưa được sử dụng hết và tăng chi phí vận hành.

Giải pháp kỹ thuật này giải quyết các yêu cầu cốt lõi cho các trung tâm dữ liệu và cơ sở nghiên cứu thế hệ tiếp theo: thiết lập một cấu trúc thống nhất, hiệu suất cao có khả năng hội tụ khối lượng công việc HPC cổ điển (dựa trên MPI) và AI hiện đại (giao tiếp tập thể). Các yêu cầu kỹ thuật chính bao gồm độ trễ chuyển mạch dưới micro giây, thông lượng không bị chặn cho tất cả các mẫu giao tiếp, kiểm soát tắc nghẽn thông minh và một khuôn khổ quản lý cung cấp khả năng hiển thị và tự động hóa sâu. Giải pháp chuyển mạch InfiniBand 920-9B210-00FN-0D0 được thiết kế để đáp ứng các tiêu chuẩn khắt khe này.

2. Thiết kế Kiến trúc Mạng/Hệ thống Tổng thể

Kiến trúc được đề xuất là một cấu trúc spine-leaf được thiết kế để có băng thông hai chiều tối đa và khả năng mở rộng, được xây dựng trên công nghệ InfiniBand NDR 400Gb/s. Lớp spine bao gồm toàn bộ các bộ chuyển mạch NVIDIA Mellanox 920-9B210-00FN-0D0, tạo thành lõi băng thông cực cao. Lớp leaf có thể bao gồm sự kết hợp của các bộ chuyển mạch NDR hoặc HDR, kết nối các nút tính toán (máy chủ GPU như hệ thống NVIDIA DGX, cụm CPU), bộ nhớ song song hiệu suất cao (NVMe-oF) và các nút quản lý.

Thiết kế tách rời này đảm bảo độ trễ có thể dự đoán được và loại bỏ tình trạng đăng ký quá mức trong cấu trúc. Các nguyên tắc kiến trúc chính bao gồm:

Cấu trúc thống nhất: Một mạng duy nhất cho lưu lượng tính toán (Đông-Tây) và lưu trữ, đơn giản hóa việc quản lý và giảm CAPEX.
Hoạt động không mất dữ liệu: Tận dụng khả năng kiểm soát tắc nghẽn và quản lý luồng lưu lượng gốc của InfiniBand để đảm bảo không mất gói, điều này rất quan trọng đối với hiệu suất RDMA và MPI.
Mạng do phần mềm xác định: Tích hợp với NVIDIA Cumulus Linux và nền tảng UFM® cho phép tự động hóa cấu trúc có thể lập trình và quản lý dựa trên chính sách.

3. Vai trò và Đặc điểm chính của NVIDIA Mellanox 920-9B210-00FN-0D0

Bộ chuyển mạch 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR là nền tảng chiến lược của kiến trúc này, đóng vai trò là spine hiệu suất cao. Vai trò của nó vượt xa việc chuyển mạch đơn giản; nó là công cụ thông minh đảm bảo việc di chuyển dữ liệu tối ưu.

Các đặc điểm kỹ thuật chính của nó, như được trình bày chi tiết trong bảng dữ liệu 920-9B210-00FN-0D0 chính thức, trực tiếp giải quyết việc tối ưu hóa độ trễ thấp:

Chuyển mạch cắt xuyên & Độ trễ cực thấp: Bộ chuyển mạch sử dụng kiến trúc chuyển mạch cắt xuyên tiên tiến, đạt được độ trễ từ cổng đến cổng dưới 100 nano giây. Điều này là tối quan trọng để giảm tổng độ trễ đầu cuối của các hoạt động RDMA.
Băng thông NDR 400Gb/s: Mỗi cổng cung cấp 400Gb/s, cung cấp khoảng không cần thiết để ngăn chặn tắc nghẽn trong thời gian khối lượng công việc cao điểm như các điểm kiểm tra huấn luyện AI phân tán hoặc các hoạt động MPI_allreduce quy mô lớn.
Định tuyến thích ứng và Kiểm soát tắc nghẽn: Công nghệ Giao thức tổng hợp và giảm thiểu phân cấp có thể mở rộng (SHARP)™ v3 của NVIDIA, được nhúng trong bộ chuyển mạch, giảm tải các hoạt động tập thể khỏi CPU, giảm đáng kể chi phí đồng bộ hóa. Kết hợp với định tuyến thích ứng động, nó ngăn chặn các điểm nóng và đảm bảo việc sử dụng cấu trúc cân bằng.
Khả năng tương thích ngược và chuyển tiếp: Bộ chuyển mạch là một phần không thể thiếu trong chiến lược di chuyển suôn sẻ. Nó hoàn toàn tương thích với các thiết bị HDR (200Gb/s) và EDR (100Gb/s) hiện có, cho phép nâng cấp theo từng giai đoạn. Việc tham khảo chi tiết thông số kỹ thuật 920-9B210-00FN-0D0 là rất quan trọng để lập kế hoạch kết nối cổng và loại cáp.

4. Khuyến nghị triển khai và mở rộng (Bao gồm mô tả cấu trúc liên kết điển hình)

Việc triển khai ban đầu nên tuân theo phương pháp tiếp cận theo mô-đun "pod". Một pod khởi đầu điển hình có thể sử dụng hai bộ chuyển mạch 920-9B210-00FN-0D0 ở vai trò spine để dự phòng, được kết nối với nhiều bộ chuyển mạch leaf HDR hoặc NDR hỗ trợ hàng chục nút tính toán.

Cấu trúc liên kết được khuyến nghị để có hiệu suất tối ưu: Cấu trúc liên kết Clos (Fat-Tree) hai tầng không bị chặn. Số lượng bộ chuyển mạch spine (đơn vị 920-9B210-00FN-0D0) được xác định bởi số lượng liên kết trên từ mỗi bộ chuyển mạch leaf và tỷ lệ đăng ký quá mức mong muốn (lý tưởng là 1:1 cho HPC/AI).

Mở rộng quy mô: Để mở rộng cụm, hãy thêm nhiều bộ chuyển mạch leaf hơn và thêm tỷ lệ các đơn vị spine 920-9B210-00FN-0D0 để duy trì tỷ lệ không bị chặn. Địa chỉ và định tuyến của cấu trúc mở rộng liền mạch theo quản lý UFM®.
Mở rộng quy mô: Các nút riêng lẻ có thể được nâng cấp lên NIC NDR, ngay lập tức tận dụng toàn bộ băng thông 400Gb/s đến spine. Bản chất tương thích của bộ chuyển mạch hỗ trợ môi trường không đồng nhất này.
Cáp và Nguồn: Việc lập kế hoạch triển khai phải tính đến các loại cáp quang tương thích NDR (ví dụ: OSFP). Các thông số kỹ thuật 920-9B210-00FN-0D0 cung cấp dữ liệu tiêu thụ điện năng và nhiệt chính xác để thiết kế điện và làm mát trung tâm dữ liệu chính xác.

Khi giải pháp này có sẵn để bán, nên tham gia với các đối tác được chứng nhận để mô hình hóa giá 920-9B210-00FN-0D0 và số lượng chính xác cho kế hoạch mở rộng cụ thể của bạn.

5. Khuyến nghị về Vận hành, Giám sát, Khắc phục sự cố và Tối ưu hóa

Sự xuất sắc trong vận hành đạt được thông qua nền tảng NVIDIA UFM®. Nó cung cấp quản lý vòng đời toàn diện cho toàn bộ cấu trúc, bao gồm mọi bộ chuyển mạch 920-9B210-00FN-0D0.

Giám sát chủ động: UFM® cung cấp từ xa theo thời gian thực về tình trạng của bộ chuyển mạch, mức sử dụng cổng, nhiệt độ, bộ đếm lỗi và phân tích chuyên sâu về các mẫu lưu lượng ở cấp ứng dụng, bao gồm các ma trận giao tiếp MPI và RDMA.
Quản lý cấu trúc tự động: Từ việc cung cấp ban đầu và xác thực cáp đến cập nhật chương trình cơ sở và sao lưu cấu hình, UFM® tự động hóa các tác vụ thông thường, giảm lỗi của con người và chi phí vận hành.
Khắc phục sự cố: Các công cụ nâng cao có thể xác định các bất thường về hiệu suất, xác định các luồng hoạt động sai gây tắc nghẽn và trực quan hóa cấu trúc liên kết để nhanh chóng cách ly các liên kết hoặc thành phần bị lỗi.
Tối ưu hóa liên tục: Tận dụng thông tin chi tiết của UFM® để điều chỉnh khối lượng công việc, xác thực rằng hiệu suất phù hợp với các bảng dữ liệu mong đợi và lên kế hoạch cho các nâng cấp dung lượng trong tương lai. Việc xem xét thường xuyên các chỉ số tắc nghẽn và độ trễ là chìa khóa để duy trì hiệu suất cấu trúc cao điểm.

6. Kết luận và Đánh giá Giá trị

Việc triển khai kiến trúc cấu trúc tập trung vào bộ chuyển mạch InfiniBand NVIDIA Mellanox 920-9B210-00FN-0D0 mang lại lợi thế cạnh tranh nền tảng cho các tổ chức phụ thuộc vào điện toán hiệu năng cao. Giải pháp kỹ thuật này mang lại giá trị có thể định lượng được trên nhiều khía cạnh:

Kích thước giá trị	Kết quả đạt được
Hiệu suất kỹ thuật	Độ trễ dưới micro giây xác định, băng thông 400Gb/s không bị chặn và hoạt động không bị tắc nghẽn cho RDMA và MPI.
Tăng tốc kinh doanh/nghiên cứu	Giảm thời gian chạy ứng dụng từ 20-40%, tăng tốc thời gian khám phá và chu kỳ phát triển sản phẩm.
Hiệu quả hoạt động	Quản lý thống nhất, cung cấp tự động và từ xa sâu hơn làm giảm TCO và giảm thiểu thời gian ngừng hoạt động.
Bảo vệ đầu tư	Khả năng tương thích ngược và kiến trúc có thể mở rộng bảo vệ các khoản đầu tư hiện có đồng thời cung cấp một lộ trình rõ ràng cho các công nghệ trong tương lai.

Tóm lại, 920-9B210-00FN-0D0 không chỉ là một thành phần mà còn là yếu tố cho phép một cơ sở hạ tầng hội tụ, hiệu suất cao. Nó biến mạng từ một trách nhiệm tiềm ẩn thành một tài sản chiến lược, giải phóng hoàn toàn sức mạnh của các cụm tính toán hiện đại.