NVIDIA Mellanox MCX556A-ECAT Giải pháp kỹ thuật: RDMA / RoCE cho giao thông chậm và tối ưu hóa thông lượng máy chủ
April 23, 2026
Sách trắng kỹ thuật này dành cho các kiến trúc sư mạng, kỹ sư bán hàng trước và quản lý hoạt động.NVIDIA Mellanox MCX556A-ECATBộ chuyển đổi máy chủ và cung cấp một khuôn khổ có hệ thống để xây dựng các mạng trung tâm dữ liệu hiệu suất cao, độ trễ thấp bằng cách sử dụng công nghệ RDMA và RoCE.
Gánh nặng công việc trung tâm dữ liệu hiện đại bao gồm lưu trữ phân tán (Ceph, Lustre), cơ sở dữ liệu trong bộ nhớ (Redis, Aerospike) và khung đào tạo AI đòi hỏi cả thông lượng cao và độ trễ dưới mili giây.TCP / IP truyền thống ngăn xếp giới thiệu đáng kể CPU overheadCác yêu cầu chính cho cơ sở hạ tầng thế hệ tiếp theo bao gồm:CPU offload (giảm sử dụng bộ xử lý máy chủ), độ trễ cực thấp và có thể dự đoán (đặc biệt là về độ trễ đuôi), giao thông không mất mát cho các giao thức lưu trữ (NVMe-oF, iSER) và tích hợp liền mạch với cơ sở hạ tầng Ethernet hiện có.MCX556A-ECATđề cập trực tiếp đến từng yêu cầu này.
Kiến trúc được đề xuất áp dụng một cấu trúc hai tầng lá-lưng với Ethernet không mất tích được cấu hình cho giao thông RoCE (RDMA trên Ethernet hội tụ).Tất cả các nút tính toán và lưu trữ được trang bịMCX556A-ECAT Ethernet adapter card, được kết nối với các công tắc lá thông qua các liên kết 100GbE QSFP28.
- Phân tách các mặt phẳng điều khiển và dữ liệu:RoCEv2 đóng gói RDMA trong UDP / IP, cho phép định tuyến qua ranh giới Layer 3.
- Kiểm soát dòng chảy ưu tiên (PFC):Cho phép hành vi không mất mát cho các lớp giao thông RDMA.
- Chọn hệ thống truyền tải nâng cao (ETS):Đảm bảo băng thông cho các luồng nhạy cảm với độ trễ.
- Thông báo tắc nghẽn:Sử dụng DCQCN (Thông báo tắc nghẽn định lượng Trung tâm dữ liệu) để kiểm soát dòng chảy từ đầu đến cuối.
Kiến trúc hỗ trợ cả môi trường bare-metal và ảo hóa, với SR-IOV cung cấp việc truyền trực tiếp các chức năng ảo đến máy ảo.
Là mộtMCX556A-ECAT ConnectX adapter thẻ mạng PCIe, bộ chuyển đổi này đóng vai trò là nền tảng của giải pháp. Động cơ giảm tải dựa trên phần cứng của nó bỏ qua lõi, cho phép chuyển dữ liệu trực tiếp từ bộ nhớ sang bộ nhớ.
| Tính năng | Lợi ích |
|---|---|
| Cổng kép 100GbE (tối đa 200Gb/s tổng hợp) | Tăng quy mô thông lượng tuyến tính cho khối lượng công việc đói băng thông |
| RDMA với hỗ trợ RoCEv2 | Độ trễ dưới microsecond, không có bản sao CPU |
| NVMe-oF và GPUDirect | Các đường ống lưu trữ và đào tạo AI tăng tốc |
| Phần cứng T10-DIF, IPsec, TLS | Tính toàn vẹn và bảo mật dữ liệu từ đầu đến cuối |
| SR-IOV, VirtIO gia tốc | Hiệu suất gần như bản địa trong môi trường ảo |
Đối với các nhóm xem xétBảng dữ liệu MCX556A-ECATvàThông số kỹ thuật MCX556A-ECAT, lưu ý rằng bộ chuyển đổi hỗ trợ cả PCIe 3.0 và 4.0 (x16), đảm bảo khả năng tương thích ngược với các máy chủ hiện có trong khi cung cấp một con đường di chuyển đến các nền tảng thế hệ tiếp theo.
Một triển khai tham chiếu cho một cụm cluster cỡ trung bình (tối đa 200 nút) được mô tả dưới đây.MCX556A-ECATđược cài đặt trong khe cắm PCIe của mỗi máy chủ, với kết nối hai cổng để tăng cường và tổng hợp băng thông.
- Topology vật lý:Hai công tắc cột sống, bốn công tắc lá. Mỗi lá kết nối với tất cả các cột sống (mạng lưới đầy đủ). Mỗi máy chủ kết nối với hai lá (sự liên kết tích cực-hoạt động).
- Cấu hình RoCE:VLAN chuyên dụng cho lưu lượng truy cập RoCE. Đánh dấu QoS dựa trên DSCP (ví dụ: DSCP 46 cho RDMA). PFC được kích hoạt ở ưu tiên 3.
- Quản lý đệm:Thiết lập bộ đệm không mất mát cho mỗi cổng dựa trên thời gian đi lại và khoảng cách liên kết.
- Địa chỉ:Sử dụng phân bổ IP tĩnh hoặc dự trữ DHCP cho giao diện RDMA. Đảm bảo khung lớn (MTU 9000) từ đầu đến cuối.
Tăng quy mô vượt quá 200 nút: giới thiệu một lớp siêu cột sống và triển khai BGP-EVPN cho phần mở rộng Layer 2 trên nhiều pods.Hoàn hợp với MCX556A-ECATKhi đánh giá các sản phẩm quang học và cáp từ các nhà cung cấp đủ điều kiện (ví dụ: Mellanox, FS.com).Giá MCX556A-ECATĐối với mua sắm quy mô lớn, hãy xem xét giá gói với chuyển mạch và quang học.
Hoạt động hiệu quả của một loại vải dựa trên RoCE đòi hỏi giám sát chủ động và các công cụ chuyên biệt:
- Giám sát hiệu suất:Sử dụng
mlxlinkvàethtoolcho thống kê liên kết (BER, lỗi FEC).Giải pháp thẻ adapter Ethernet MCX556A-ECATbao gồm đo từ xa thông qua PCM (Performance Counters Monitor). - Phát hiện tắc nghẽn:Theo dõi các gói được đánh dấu ECN và khung tạm dừng PFC bằng cách sử dụng đo từ xa chuyển mạch (ví dụ: Mellanox SNMP MIBs).
- Quản lý firmware & trình điều khiển:Thông thường cập nhật các phiên bản mới nhất từ NVIDIA OFED.
mstflintđể xác nhận firmware. - Giải quyết sự cố thông thường:Đối với các lỗi kết nối RDMA, hãy xác minh tính nhất quán của MTU, thành viên VLAN và bản đồ DSCP-to-CoS.
ibdev2netdevvàrdma link showđể kiểm tra trạng thái thiết bị. - Mẹo tối ưu hóa:Điều chỉnh các tham số DCQCN (alpha, beta, bộ hẹn giờ tăng tốc độ) dựa trên khối lượng công việc. Đối với khối lượng công việc lưu trữ, tăng độ sâu hàng đợi hoàn thành. Đối với đào tạo AI, bật GPUDirect RDMA và bộ nhớ pin.
Đối với lập kế hoạch năng lực, hãy tham khảoBảng dữ liệu MCX556A-ECATcho các thông số kỹ thuật nhiệt và năng lượng (thường là 15W).MCX556A-ECAT để bánthông qua các nhà phân phối được ủy quyền, bao gồm các chương trình dự phòng.
CácMCX556A-ECATcung cấp giá trị có thể đo lường qua ba chiều:hiệu suất(tối đa 90% giảm độ trễ ứng dụng, tăng thông lượng 4 lần),hiệu quả(70% CPU giảm tải, năng lượng thấp hơn mỗi Gb/s), vàTổng chi phí sở hữu(cơ sở hạ tầng hợp nhất, giảm số lượng máy chủ, chi phí làm mát thấp hơn).NVIDIA Mellanox MCX556A-ECATĐối với các trung tâm dữ liệu thế hệ tiếp theo bao gồm AI, HPC hoặc lưu trữ được xác định bởi phần mềm,bộ chuyển đổi này đại diện cho một chứng minhĐể bắt đầu, yêu cầu mộtBảng dữ liệu MCX556A-ECATvà xác nhậnHoàn hợp với MCX556A-ECATcấu hình với nhà cung cấp chuyển đổi của bạn.

