Giải pháp kỹ thuật bộ điều hợp máy chủ NVIDIA Mellanox MCX653105A-HDAT
June 15, 2026
Khi lưu trữ phân tán, cơ sở dữ liệu hội tụ và nền tảng đào tạo AI phát triển hướng tới các mạng 100GbE/200GbE, ngăn xếp TCP / IP truyền thống đã trở thành một nút thắt hiệu suất chính.Các hoạt động quan trọng như sao chép dữ liệu và đồng bộ hóa nhật ký rất nhạy cảm với độ trễ, nhưng ngăn xếp mạng lõi giới thiệu hàng chục microsecond chậm trễ và tiêu thụ các nguồn CPU đáng kể để xử lý giao thức, hạn chế nghiêm trọng khả năng mở rộng thông lượng.Trung tâm dữ liệu hiện đại đòi hỏi một giải pháp mạng cung cấp gần như bộ nhớ trễ, tốc độ truyền dòng, và sự can thiệp tối thiểu của CPU.
Giải pháp kỹ thuật này tập trung vàoNVIDIA Mellanox MCX653105A-HDATBộ chuyển đổi máy chủ, được thiết kế để đáp ứng các yêu cầu chính sau:
- Thời gian trễ giữa các nút dưới microsecond cho lưu trữ phân tán và khối lượng công việc HPC
- Sử dụng CPU dưới 10% cho xử lý mạng, giải phóng lõi cho ứng dụng logic
- Giao thông không mất mát với kiểm soát tắc nghẽn để tránh sự chậm trễ
- Tích hợp liền mạch với cơ sở hạ tầng Ethernet hiện có
- Tải xuống phần cứng cho NVMe-over-Fabrics (NVMe-oF) và GPUDirect RDMA
Kiến trúc được đề xuất áp dụng một cấu trúc CLOS hai cấp (spine-leaf) với RoCE (RDMA over Converged Ethernet) được triển khai làm giao thức vận chuyển chính.Tất cả các máy chủ tính toán và lưu trữ được trang bịMCX653105A-HDAT Ethernet adapter card, được kết nối với các công tắc lá có khả năng RoCE. PFC (Kiểm soát dòng chảy ưu tiên) và ECN (Thông báo tắc nghẽn rõ ràng) được kích hoạt để tạo các miền Ethernet không mất cho lưu lượng RDMA,trong khi các hàng đợi ưu tiên riêng biệt cô lập lưu trữ, HPC, và luồng quản lý.
Các quyết định kiến trúc chính bao gồm:
- RoCEv2trên UDP-IP để cho phép định tuyến qua ranh giới Layer 3
- DCQCN (Thông báo tắc nghẽn định lượng của trung tâm dữ liệu)cho quản lý tắc nghẽn chủ động
- PCIe phân vùngđể dành băng thông cho lưu trữ so với lưu lượng truy cập tính toán trên cùng một bộ điều chỉnh
- Hỗ trợ đa máy chủcho phép tối đa bốn máy chủ chia sẻ một bộ chuyển đổi duy nhất (các kịch bản lưu trữ phân loại)
Ở trung tâm của giải pháp này,NVIDIA Mellanox MCX653105A-HDAT- một cổng kép 100GbE ConnectX-6 Dx adapter - phục vụ như là động cơ giảm tải quan trọng.Bảng dữ liệu MCX653105A-HDAT, thẻ tích hợp các máy gia tốc phần cứng thay đổi cơ bản cách máy chủ xử lý I / O mạng.
Bảng dưới đây làm nổi bật cách các tính năng cụ thể giải quyết các yêu cầu kiến trúc:
| Tính năng | Chức năng | Lợi ích |
|---|---|---|
| RoCE Hardware Offload | Bộ đống RDMA hoàn chỉnh trong bộ điều hợp | Độ trễ dưới 1μs, không có bản sao CPU |
| NVMe-oF Target Offload | Tăng tốc phần cứng cho các lệnh NVMe | 5x dung lượng lưu trữ, 90% giảm CPU |
| ASAP2 (Tiến đổi nhanh) | Mở vSwitch tải xuống phần cứng | Lớp phủ ảo hóa tốc độ dòng |
| Boot an toàn & In-line Crypto | Hardware IPSec/TLS offload | Mã hóa mà không bị phạt về hiệu suất |
CácMCX653105A-HDAT ConnectX adapter thẻ mạng PCIecũng bao gồm số liệu từ xa tiên tiến mỗi gói chứa dấu thời gian phần cứng và bộ đếm dòng chảy, cung cấp khả năng hiển thị tắc nghẽn thời gian thực mà không cần thăm dò CPU chủ.Đối với các tổ chức liên quan đến mua sắm,Giá MCX653105A-HDATcung cấp ROI hấp dẫn so với các lựa chọn thay thế chỉ dựa trên CPU hoặc FPGA.
Đối với một cụm 200 nút điển hình, chúng tôi khuyên bạn nên áp dụng phương pháp triển khai sau:
- Lớp lá:Chuyển đổi có khả năng RoCE (ví dụ: NVIDIA SN3700) với PFC / ECN được bật, được cấu hình cho các tham số DCQCN điều chỉnh cho tốc độ bùng nổ khối lượng công việc.
- Lớp cột sống:Các công tắc không chặn với tỷ lệ đăng ký quá mức phù hợp (tối đa 3: 1 cho lưu lượng lưu trữ).
- Bên máy chủ:Một.Giải pháp thẻ adapter MCX653105A-HDAT Ethernetmỗi hai nút đối với các cụm lưu trữ chia sẻ, hoặc một nút đối với HPC chuyên sâu về tính toán.
- Đệm và MTU:Thiết lập khung lớn 9000-byte từ đầu đến cuối, và phân bổ 10~20% bộ đệm chuyển đổi cho mỗi nhóm ưu tiên để đảm bảo không mất mát.
Khi xác minh khả năng tương thích, hầu hết các nền tảng máy chủ lớn đều đượcMCX653105A-HDAT tương thíchĐịnh hướng của bộ điều chỉnh này là: ✓ bao gồm Dell PowerEdge, HPE ProLiant, Lenovo ThinkSystem và Supermicro.
Việc triển khai RoCE sản xuất đòi hỏi khả năng hiển thị chủ động.
- Thu thập số liệu từ xa:Sử dụng NVIDIA
mft(Mellanox Firmware Tools) vàEthtool -Sđể xuất khẩu các máy tính theo cảng và hàng đến Prometheus hoặc các hệ thống tương tự. - Các số liệu quan trọng để theo dõi:PFC pause frames per second, ECN đánh dấu tốc độ gói, RoCE retransmissions, và nhiệt độ adapter.
- Phát hiện tắc nghẽn:Một sự gia tăng đột ngột trong PFC dừng lại thường báo hiệu một máy thu chậm; kiểm traMCX653105A-HDAT thông số kỹ thuậtđối với các thông số điều chỉnh ngưỡng đệm.
- Quản lý phần mềm:Lên kế hoạch nâng cấp phần mềm vững trong các cửa sổ bảo trì; bộ chuyển đổi hỗ trợ di chuyển trực tiếp các kết nối RoCE để giảm thiểu thời gian ngừng hoạt động.
- Danh sách kiểm tra hiệu suất:Cho phép kết hợp IRQ, đặt kích thước vòng Rx / Tx thích hợp (4096 được khuyến cáo), ngắt pin cho các lõi chuyên dụng và xác minh chiều rộng liên kết PCIe (x16 @ Gen4/5).
CácNVIDIA Mellanox MCX653105A-HDATcung cấp một nền tảng hoàn chỉnh, sẵn sàng sản xuất cho các loại vải chậm dựa trên RDMA / RoCE.Bằng cách dỡ bỏ toàn bộ đường dẫn dữ liệu từ lệnh lưu trữ đến chuyển đổi ảo và mã hóa bảo mật nó biến mạng máy chủ từ một nút thắt thành một máy gia tốcCác tổ chức áp dụng giải pháp này có thể mong đợi:
- Độ trễ xác định dưới 2μsqua hàng trăm nút
- Tăng hiệu suất 5×10 lầncho NVMe-oF và HPC workflows
- Giảm 80~90%trong chi phí CPU liên quan đến mạng
- Tính mở rộng tuyến tínhkhông bị tắc nghẽn
Đối với các kỹ sư đánh giá các lựa chọn,Bảng dữ liệu MCX653105A-HDATvà hướng dẫn khả năng tương thích chính thức là các tài liệu tham khảo có thẩm quyền.MCX653105A-HDAT để bánthông qua các đối tác kênh của NVIDIA, con đường đến một hệ thống dữ liệu hiệu suất cao, độ trễ thấp là rõ ràng và có thể đạt được.Giải pháp kỹ thuật này cung cấp một kế hoạch cho bất kỳ tổ chức nào tìm cách mở ra tiềm năng đầy đủ của mạng 100GbE với RDMA và RoCE.

