NVIDIA Mellanox MCX653106A-HDAT Giải pháp kỹ thuật: RDMA / RoCE dựa trên giao thông và máy chủ độ trễ thấp

June 16, 2026

NVIDIA Mellanox MCX653106A-HDAT Giải pháp kỹ thuật: RDMA / RoCE dựa trên giao thông và máy chủ độ trễ thấp

Sách trắng kỹ thuật này được thiết kế cho các kiến trúc sư mạng, kỹ sư bán hàng trước và quản lý hoạt động.NVIDIA Mellanox MCX653106A-HDATmáy chủ và phác thảo cách xây dựng một cơ sở hạ tầng mạng trung tâm dữ liệu có khả năng vận chuyển RDMA / RoCE quy mô microsecond và hiệu suất thông lượng cực cao.

1. Phân tích nền tảng và yêu cầu

Trung tâm dữ liệu hiện đại phải đối mặt với ba thách thức chính: độ trễ không thể đoán trước trong lưu trữ phân tán, thiếu băng thông trong các tập hợp đào tạo AI,và tiêu thụ CPU quá mức bởi các ngăn xếp giao thức mạng truyền thốngCác giải pháp TCP/IP thông thường không còn đáp ứng được nhu cầu về độ trễ ở quy mô microsecond của NVMe-oF, giao dịch tần số cao và phân tích thời gian thực.Giải pháp thẻ adapter MCX653106A-HDAT Ethernetcung cấp giao thông RDMA không tải phần cứng qua cơ sở hạ tầng Ethernet tiêu chuẩn trong khi mở rộng tốc độ truyền của máy chủ lên mức 200Gbps.

2Thiết kế kiến trúc mạng/hệ thống tổng thể

Giải pháp này áp dụng kiến trúc CLOS hai lớp Leaf-Spine.NVIDIA Mellanox MCX653106A-HDATCác nguyên tắc thiết kế chính bao gồm:

  • Mạng không mất mát từ đầu đến cuối được kích hoạt bởi PFC (Kiểm soát dòng chảy ưu tiên) và ECN (Báo cáo tắc nghẽn rõ ràng)
  • Các tuyến vận chuyển RDMA dành riêng cho lưu trữ và khối lượng công việc HPC
  • Phân biệt phẳng điều khiển (Tiêu chuẩn TCP/IP) và phẳng dữ liệu (RoCEv2)
  • Việc thực hiện ảo hóa dựa trên phần cứng (SR-IOV, VXLAN/NVGRE/Geneva)

Dựa trênBảng dữ liệu MCX653106A-HDAT, bộ chuyển đổi cung cấp độ trễ cổng đến cổng dưới 600ns và hỗ trợ lên đến 215 triệu gói mỗi giây, làm cho nó lý tưởng cho cả lưu lượng lưu trữ Đông-Tây và dòng ứng dụng Bắc-Nam.

3. Vai trò và các tính năng chính của NVIDIA Mellanox MCX653106A-HDAT trong giải pháp này

CácMCX653106A-HDAT ConnectX adapter thẻ mạng PCIephục vụ như là công cụ máy bay dữ liệu cơ bản.

  • RDMA/RoCE gia tốc:Tải tải phần cứng đầy đủ của RoCEv2, bao gồm quản lý tắc nghẽn, xử lý gói bên ngoài và đặt dữ liệu ngay lập tức vào bộ đệm ứng dụng.
  • Giao thức lưu trữ:Hỗ trợ gốc cho NVMe-oF (cả biến thể TCP và RoCE), iSER và SRP, loại bỏ xử lý mục tiêu dựa trên phần mềm.
  • Virtualization & Multi-Tenancy:Tối đa 1.000 chức năng ảo (VFs) mỗi cổng, với tải trọng đường hầm chồng chéo đảm bảo kết hợp / giải nén tốc độ đường dây.
  • An ninh & Telemetry:Mã hóa IPsec / TLS trực tuyến ở tốc độ 200Gbps, cộng với theo dõi luồng dựa trên phần cứng (ví dụ: theo dõi kết nối, biểu đồ).

TheoMCX653106A-HDAT thông số kỹ thuật, bộ chuyển đổi hỗ trợ giao diện PCIe 4.0/5.0 x16, đảm bảo không có nút thắt phía máy chủ ngay cả ở tốc độ đường dây 200GbE đầy đủ.

4. Đề xuất triển khai và mở rộng quy mô (với Topology điển hình)

Một topology tham chiếu được xác nhận bao gồm:

  • Lớp tính toán:48 máy chủ hai ổ cắm, mỗi máy được trang bị mộtMCX653106A-HDATCác cổng được liên kết như một LAG hoạt động-hoạt động.
  • Lớp lưu trữ:12 máy chủ mục tiêu NVMe-oF flash, mỗi máy có haiMCX653106A-HDAT Ethernet adapter cardcác đơn vị 1 cho truy cập tính toán phía trước, một cho sao chép phía sau.
  • Lớp mạng:Bốn công tắc Spine 100GbE và tám công tắc Leaf, được cấu hình với DCBX, PFC (tầng 3 cho RoCE) và ngưỡng ECN.

Để mở rộng quy mô vượt quá 200 nút, kiến trúc hỗ trợ thiết kế đa-pod sử dụng EVPN-VXLAN với tải phần cứng (hoàn toànMCX653106A-HDAT tương thíchKhi đánh giá công suất,Giá MCX653106A-HDATmỗi cổng 100GbE có thể sử dụng là khoảng 40% thấp hơn so với các giải pháp Fibre Channel hoặc InfiniBand tương đương.

5. Hoạt động, giám sát, khắc phục sự cố và tối ưu hóa

Hoạt động hiệu quả của việc triển khai RDMA / RoCE đòi hỏi các công cụ chuyên biệt.

Các khía cạnh Các biện pháp và công cụ được khuyến cáo
Telemetry & Visibility Khả năng đếm phần cứng thông quamlx5cmdvà nhà xuất khẩu Prometheus; theo dõi PFC pause, các gói được đánh dấu ECN, và RoCE retransmissions.
Phát hiện tắc nghẽn Sử dụngEthtool -Scho các số liệu thống kê hàng đợi; triển khai bộ đo độ tắc nghẽn dựa trên Docker của NVIDIA.
Phần mềm cố định và trình điều khiển Mgmt Tiếp tụcMCX653106A-HDAT tương thíchcác phiên bản phần mềm (≥ 26.35.x) bên cạnh ngăn xếp trình điều khiển DOCA 2.5+.
Hướng dẫn tối ưu hóa Đặt MTU=9000 cho các khung hình lớn; điều chỉnh chính sách roce_rx_qos_policy; kích hoạt điều chỉnh gián đoạn động cho khối lượng công việc hỗn hợp.

Để khắc phục sự cố, thu thập siêu dữ liệu cụ thể RoCEv2 bằng cách sử dụngrdmatoolibv_devinfoCác cạm bẫy phổ biến bao gồm các ưu tiên PFC không được cấu hình (đảm bảo tính nhất quán trên tất cả các thiết bị mạng) và tốc độ liên kết PCIe không phù hợp (được xác nhận vớiLspci -vvv)

6. Tóm lại & Đánh giá giá trị

CácNVIDIA Mellanox MCX653106A-HDATcung cấp một nền tảng đã được chứng minh, sẵn sàng sản xuất để chuyển đổi các vải Ethernet tiêu chuẩn thành các mạng không mất mát hiệu suất cao.

  • Độ trễ:Độ trễ đọc NVMe-oF xác định dưới 10μs (P99), cho phép phân tích thời gian thực và hội tụ HPC.
  • Điện tích:Tỷ lệ gần đường dây 200GbE với mất tích gói không, được xác nhận đối vớiMCX653106A-HDAT thông số kỹ thuật.
  • Hiệu quả CPU:Giải phóng tới 30% lõi CPU trước đây được sử dụng bởi các network và storage stack.
  • TCO:So với các kết nối độc quyền,MCX653106A-HDAT để bángiá, kết hợp với chuyển đổi Ethernet tiêu chuẩn, giảm chi phí hoạt động ba năm ước tính 35-50%.

Các kiến trúc sư và lãnh đạo hoạt động có thể tự tin triển khai giải pháp này cho các loại vải AI, lưu trữ phân chia và các hệ thống tài chính cực thấp.tham khảo quan chứcBảng dữ liệu MCX653106A-HDATvà thư viện tài liệu DOCA của NVIDIA