NVIDIA Mellanox MCX556A-ECAT hoạt động: RDMA / RoCE cho phép đột phá độ trễ cực thấp và thông lượng máy chủ
April 23, 2026
Trong lưu trữ phân tán, máy tính hiệu suất cao (HPC) và các cụm đào tạo AI, độ trễ mạng và chi phí CPU đã hạn chế hiệu quả tổng thể của máy chủ từ lâu.Một sự triển khai gần đây tại một nhà cung cấp dịch vụ đám mây quy mô lớn cho thấyNVIDIA Mellanox MCX556A-ECATgiải quyết những thách thức này thông qua các công nghệ RDMA và RoCE, mang lại lợi ích có thể đo lường trong cả thông lượng và giảm độ trễ.
Khách hàng vận hành một tập hợp lưu trữ Ceph nhiều petabyte hỗ trợ hàng ngàn máy ảo.cơ sở hạ tầng 25GbE của họ sử dụng TCP / IP tiêu chuẩn bị lạm dụng CPU cao (hơn 60% trên các nút lưu trữ) và độ trễ không nhất quán trong thời gian tải cao nhất. Các cửa sổ sao lưu thường vượt quá tám giờ, và các công việc đào tạo AI gặp phải các gian hàng I / O. Nhóm cần một giải pháp có thể giảm sự can thiệp của CPU, giảm độ trễvà quy mô mà không cần sửa chữa cơ sở hạ tầng hoàn toànSau khi xem xétBảng dữ liệu MCX556A-ECATvà so sánhThông số kỹ thuật MCX556A-ECAT, họ đã chọnMCX556A-ECATlà thành phần nâng cấp cốt lõi.
Kiến trúc tập trung vàoMCX556A-ECAT Ethernet adapter card, một bộ chuyển đổi 100GbE cổng kép hỗ trợ PCIe 3.0/4.0 x16.MCX556A-ECAT ConnectX adapter thẻ mạng PCIe, nó cho phép RoCE v2 trên toàn bộ topology lá-cột sống hiện có với những thay đổi chuyển đổi tối thiểu.
- Thay thế các bộ chuyển đổi 25GbE cũ vớiMCX556A-ECATtrên 40 nút lưu trữ và 150 nút tính toán.
- Cho phép tải phần cứng: NVMe trên vải (NVMe-oF), GPUDirect RDMA và T10-DIF để bảo toàn dữ liệu.
- Thiết lập điều khiển dòng chảy ưu tiên (PFC) và lựa chọn truyền tải nâng cao (ETS) cho vận chuyển RoCE không mất mát.
- Kiểm traHoàn hợp với MCX556A-ECATtrạng thái với các công tắc Mellanox Spectrum hiện có và quang học QSFP28.
Toàn bộ việc triển khai mất hai cuối tuần, không có thời gian ngừng hoạt động bằng cách sử dụng di chuyển trực tiếp cho khối lượng công việc máy tính.
Các phép đo sau khi triển khai cho thấy sự cải thiện đáng kể trên các chỉ số chính.
| Phương pháp đo | Trước (25GbE TCP/IP) | Sau (MCX556A-ECAT với RoCE) | Cải thiện |
|---|---|---|---|
| Sử dụng CPU của nút lưu trữ | 62% | 18% | ↓ 71% |
| Độ trễ trung bình (4K đọc ngẫu nhiên) | 450 μs | 42 μs | ↓ 90,7% |
| Công suất tổng hợp của cụm | 38 Gb/s | 172 Gb/s | ↑ 353% |
| Thời gian cửa sổ sao lưu | 8.5 giờ | 1.8 giờ | ↓ 79% |
Ngoài các con số, nhóm kỹ sư báo cáo rằng RDMA giảm jitter đáng kể, loại bỏ các đỉnh "chuỗi đuôi" trước đây gây ra các điểm kiểm tra đào tạo AI.Giải pháp thẻ adapter Ethernet MCX556A-ECAT, thẻ cũng đơn giản hóa việc khắc phục sự cố thông qua telemetry tích hợp và thông báo tắc nghẽn.Giá MCX556A-ECATchống lại tăng hiệu suất, khách hàng đạt được ROI trong vòng chín tháng hoàn toàn từ tiết kiệm CPU lõi và nhanh hơn batch hoàn thành công việc.MCX556A-ECAT để bánthông qua nhiều đối tác kênh, làm cho mức độ hiệu suất này có thể tiếp cận được với các doanh nghiệp cấp trung.
Việc triển khai chứng minh rằngMCX556A-ECATcung cấp lời hứa của nó: sub-microsecond RDMA latency, giảm tải CPU mạnh mẽ, và quy mô thông lượng tuyến tính.NVIDIA Mellanox MCX556A-ECATcung cấp một nền tảng chắc chắn trong tương lai. Khi 100GbE trở thành tiêu chuẩn mới cho các cột sống trung tâm dữ liệu, các giải pháp được xây dựng xung quanh bộ chuyển đổi này sẽ tiếp tục vượt trội hơn các ngăn xếp TCP / IP cũ.Để lập kế hoạch chi tiết, tham khảo các quan chứcBảng dữ liệu MCX556A-ECAThoặc tham khảo ý kiến với các kiến trúc sư giải pháp để xác nhậnHoàn hợp với MCX556A-ECATcấu hình cho môi trường cụ thể của bạn.

