RDMA / RoCE Giao thông chậm và tăng hiệu suất máy chủ
April 28, 2026
Tài liệu kỹ thuật chuyên sâu này cung cấp cho các kiến trúc sư, kỹ sư tiền bán hàng và trưởng bộ phận vận hành một thiết kế tham chiếu toàn diện tập trung vào NVIDIA Mellanox MCX631432AN-ADAB. Giải pháp này giải quyết các thách thức của trung tâm dữ liệu hiện đại — cụ thể là, tải CPU từ các ngăn xếp mạng cũ, độ trễ lưu trữ không nhất quán và băng thông 25GbE chưa được sử dụng hết — bằng cách triển khai card mạng Ethernet MCX631432AN-ADAB làm nền tảng cho một fabric RDMA/RoCE hiệu suất cao, hội tụ.
1. Bối cảnh dự án & Phân tích yêu cầu
Các mạng trung tâm dữ liệu thông thường dựa vào TCP/IP cho cả lưu lượng tính toán và lưu trữ, buộc CPU phải xử lý mọi gói tin. Trong các môi trường chạy cơ sở dữ liệu phân tán, NVMe-over-Fabrics (NVMe-oF) hoặc khối lượng công việc đào tạo AI, phương pháp dựa trên phần mềm này tạo ra ba vấn đề cơ bản: độ trễ cao và biến đổi (thường vượt quá 50μs cho các hoạt động lưu trữ), tải CPU đáng kể (30–60% cho xử lý mạng) và sử dụng băng thông vật lý không hiệu quả do chi phí giao thức. Khi 25GbE trở thành tốc độ lớp truy cập tiêu chuẩn, những sự thiếu hiệu quả này không còn có thể chấp nhận được. Các yêu cầu mục tiêu cho giải pháp này là: độ trễ lưu trữ đầu cuối dưới 5μs, sử dụng CPU dưới 10% cho I/O mạng và sử dụng băng thông đầy đủ tốc độ đường truyền của các cổng 25GbE kép trên mỗi máy chủ.
2. Thiết kế kiến trúc mạng/hệ thống tổng thể
Kiến trúc được đề xuất áp dụng cấu trúc liên kết spine-leaf hai tầng với Ethernet không mất mát ở Lớp 2. Các nút tính toán và lưu trữ được phân bổ đều trên các switch leaf, mỗi switch được cấu hình với PFC (Kiểm soát luồng ưu tiên) và ECN (Thông báo tắc nghẽn rõ ràng) để kích hoạt RoCEv2. Quyết định kiến trúc chính là triển khai card ConnectX-6 Lx dual-port 25GbE SFP28 MCX631432AN-ADAB trên mọi máy chủ, cung cấp cả kết nối mạng và giảm tải phần cứng cho RDMA. Một hàng đợi ưu tiên dựa trên DSCP chuyên dụng được phân bổ cho lưu lượng RoCE, tách biệt với lưu lượng IP tốt nhất. Quản lý tập trung sử dụng Cumulus Linux hoặc SONiC của NVIDIA để cấu hình switch, trong khi điều phối phía máy chủ tận dụng ngăn xếp NVIDIA OFED.
3. Vai trò & Tính năng chính của NVIDIA Mellanox MCX631432AN-ADAB
Trong giải pháp này, MCX631432AN-ADAB đóng vai trò là yếu tố kích hoạt quan trọng — biến các máy chủ thông thường thành các nút có độ trễ thấp, thông lượng cao. Dựa trên tờ dữ liệu MCX631432AN-ADAB, card này tích hợp nhiều khả năng nâng cao:
- Giảm tải RDMA phần cứng: Trạng thái RoCEv2 đầy đủ trong silicon, loại bỏ xử lý truyền tải dựa trên phần mềm.
- Cổng kép 25GbE SFP28: Hỗ trợ cả cáp quang chủ động và DAC, với xử lý PPS độc lập cho mỗi cổng.
- Giao diện máy chủ PCIe 4.0 x16: Cung cấp băng thông hai chiều lên đến 200Gbps, không tạo ra nút thắt cổ chai giữa card và bộ nhớ máy chủ.
- Giảm tải mã hóa nội tuyến: Xử lý IPsec và TLS ở tốc độ đường truyền, rất quan trọng đối với các mạng lưu trữ không tin cậy.
- Tăng tốc NVMe-oF: Hàng đợi lệnh và đặt dữ liệu dựa trên phần cứng được tối ưu hóa đặc biệt cho NVMe/TCP và NVMe/RoCE.
Theo thông số kỹ thuật MCX631432AN-ADAB chính thức, card này cung cấp độ trễ phần cứng dưới 800ns và hỗ trợ lên đến 200 triệu thông điệp mỗi giây. Khi kết hợp với thư viện RDMACM mã nguồn mở, các ứng dụng có thể chuyển đổi từ socket TCP sang RDMA verbs với những thay đổi mã tối thiểu. Đối với các tổ chức đánh giá giải pháp này, điều quan trọng cần lưu ý là danh sách máy chủ tương thích MCX631432AN-ADAB bao gồm tất cả các nền tảng OEM chính (Dell PowerEdge, HPE ProLiant, Lenovo ThinkSystem và Supermicro) với các trình điều khiển được chứng nhận cho RHEL, Ubuntu, Rocky Linux và Windows Server.
4. Khuyến nghị triển khai & Mở rộng
Việc triển khai điển hình ở cấp độ rack tuân theo mẫu này: mỗi nút tính toán hoặc lưu trữ nhận một giải pháp card mạng Ethernet MCX631432AN-ADAB, với các cổng kép của nó được cấu hình trong liên kết LACP chủ động-chủ động để dự phòng hoặc dưới dạng các đường dẫn fabric riêng biệt (một đến leaf-A, một đến leaf-B). Cấu trúc liên kết vật lý rất đơn giản:
- Mỗi máy chủ → hai liên kết 25GbE → hai switch leaf riêng biệt (hỗ trợ chuyển đổi dự phòng không gián đoạn).
- Switch leaf → các liên kết uplink 100GbE → hai switch spine cho kết nối đầy đủ không chặn.
- Đánh dấu DSCP chuyên dụng (ví dụ: 46) cho lưu lượng RoCE trên tất cả các switch với PFC được bật cho lớp đó.
Để mở rộng vượt quá 200 máy chủ, chúng tôi khuyên bạn nên triển khai một cluster RoCE riêng biệt cho lưu trữ và tính toán tương ứng, hoặc sử dụng chính sách QoS để đảm bảo lưu lượng RoCE lưu trữ được ưu tiên. Điều chỉnh bộ đệm tại các switch leaf cũng rất quan trọng: kích thước bộ đệm chia sẻ trên mỗi cổng nên tăng lên 12MB cho các cổng 25GbE để hấp thụ các đợt bùng phát nhỏ mà không bị mất gói tin. Các tổ chức có thể tham khảo các danh mục nhà cung cấp MCX631432AN-ADAB để bán để biết giá số lượng lớn, và giá MCX631432AN-ADAB trên mỗi nút thường được khấu hao trong vòng sáu tháng nhờ tiết kiệm CPU và tăng hiệu quả lưu trữ.
5. Vận hành, Giám sát & Tinh chỉnh hiệu suất
Sau khi triển khai, các công cụ và phương pháp sau đây đảm bảo độ trễ thấp bền vững:
- Giám sát phía máy chủ: Sử dụng
mlx_perfvàethtool -Sđể theo dõi các bộ đếm RDMA trên mỗi hàng đợi, truyền lại PCIe và các dấu hiệu tắc nghẽn RoCE. - Viễn trắc switch: Kích hoạt PFC watchdog và biểu đồ phân bố ECN để phát hiện tắc nghẽn đầu hàng đợi trước khi nó ảnh hưởng đến sản xuất.
- Khuyến nghị tinh chỉnh: Đặt
irqbalanceđể cô lập các lõi CPU cho các hàng đợi hoàn thành RDMA; tăng kích thước yêu cầu đọc tối đa PCIe lên 4096 byte; tắt ECN trên hàng đợi tốt nhất để tránh các tín hiệu tắc nghẽn sai. - Vòng đời firmware và trình điều khiển: Đăng ký ghi chú phát hành NVIDIA OFED; card mạng Ethernet MCX631432AN-ADAB hỗ trợ nâng cấp firmware tại chỗ mà không cần khởi động lại máy chủ nhờ các ngân hàng hình ảnh kép.
Để khắc phục sự cố, các bộ đếm lỗi tích hợp của card (ví dụ: lỗi ký hiệu, lỗi tính toàn vẹn liên kết cục bộ) cung cấp chẩn đoán nhanh chóng. Khi tích hợp với các mẫu switch mới, hãy kiểm tra ma trận khả năng tương thích tương thích MCX631432AN-ADAB do NVIDIA duy trì.
6. Tóm tắt & Đánh giá giá trị
Giải pháp dựa trên NVIDIA Mellanox MCX631432AN-ADAB mang lại giá trị có thể đo lường trên ba khía cạnh: hiệu suất, TCO và sự đơn giản trong vận hành. Bằng cách chuyển xử lý truyền tải, mã hóa và giao thức lưu trữ từ CPU sang card, các tổ chức đạt được độ trễ NVMe-oF dưới 5μs đồng thời giải phóng hơn 40% chu kỳ CPU cho logic ứng dụng. Thiết kế cổng kép 25GbE đảm bảo kết nối máy chủ trong tương lai, và ngăn xếp phần mềm NVIDIA OFED trưởng thành giúp giảm rủi ro tích hợp. Đối với các kiến trúc sư đang lên kế hoạch triển khai 25GbE mới hoặc hiện đại hóa cơ sở hạ tầng bị giới hạn bởi TCP hiện có, giải pháp kỹ thuật này — tập trung vào card ConnectX-6 Lx dual-port 25GbE SFP28 MCX631432AN-ADAB — đại diện cho một con đường đã được chứng minh, có thể mở rộng và được bảo vệ đầu tư để thành công với RDMA/RoCE.

