Card máy chủ NVIDIA Mellanox MCX4121A-ACAT hoạt động | Vận chuyển độ trễ thấp RDMA/RoCE & Máy chủ

April 22, 2026

tin tức mới nhất của công ty về Card máy chủ NVIDIA Mellanox MCX4121A-ACAT hoạt động | Vận chuyển độ trễ thấp RDMA/RoCE & Máy chủ


Một nhà cung cấp dịch vụ đám mây quy mô lớn đã gặp phải một thách thức quen thuộc khi xây dựng cụm lưu trữ phân tán thế hệ tiếp theo. Khi cụm mở rộng lên hàng trăm nút, chi phí CPU và độ trễ dao động ở mức micro giây vốn có của ngăn xếp TCP/IP truyền thống đã hạn chế nghiêm trọng hiệu suất của NVMe-oF và cơ sở dữ liệu phân tán. Sau khi đánh giá nghiêm ngặt, nhóm đã chọn bộ điều hợp máy chủ NVIDIA Mellanox MCX4121A-ACAT để nâng cấp mạng lưới của họ, tận dụng công nghệ RDMA/RoCE để chuyển đổi cơ bản các đường dẫn dữ liệu.

Bối cảnh & Thách thức: Nút cổ chai TCP/IP trong lưu lượng Đông-Tây

Trong các trung tâm dữ liệu hiện đại, lưu lượng Đông-Tây — giao tiếp giữa các máy chủ — chiếm ưu thế trong các mẫu lưu lượng tổng thể. Đối với nền tảng lưu trữ phân tán của nhà cung cấp, mỗi thao tác I/O yêu cầu nhiều lượt đi lại trên mạng. Ngăn xếp TCP thông thường tiêu tốn hơn 30% lõi CPU chỉ để xử lý giao thức, gây ra các đỉnh độ trễ không thể đoán trước làm suy giảm hiệu suất ứng dụng. Nhóm cần một giải pháp có thể bỏ qua nhân, giảm sự can thiệp của CPU và cung cấp độ trễ nhất quán dưới micro giây trên toàn bộ cụm.

Giải pháp & Triển khai: Triển khai MCX4121A-ACAT cho Vận chuyển RoCE

Nhà cung cấp đã triển khai thẻ bộ điều hợp Ethernet MCX4121A-ACAT trên 120 nút lưu trữ, mỗi nút được cấu hình với kết nối 25GbE cổng kép. Được xây dựng trên kiến trúc ConnectX-4 Lx, thiết kế MCX4121A-ACAT ConnectX-4 Lx dual-port 25GbE SFP28 cho phép triển khai RoCE (RDMA qua Ethernet hợp nhất) liền mạch mà không yêu cầu cơ sở hạ tầng InfiniBand chuyên dụng. Các tham số triển khai chính bao gồm:

  • Kiểm soát luồng ưu tiên (PFC) và Lựa chọn truyền nâng cao (ETS) được cấu hình trên tất cả các công tắc ToR.
  • Đánh dấu ECN được bật cho vận chuyển RoCE nhận biết tắc nghẽn.
  • Vai trò bộ khởi tạo và mục tiêu NVMe-oF được ánh xạ trực tiếp vào các công cụ giảm tải phần cứng của bộ điều hợp.

Theo datasheet MCX4121A-ACAT, việc giảm tải vận chuyển dựa trên phần cứng của bộ điều hợp loại bỏ nhu cầu CPU tham gia vào việc di chuyển dữ liệu. Nhóm đã xác nhận khả năng tương thích trên bản phân phối Linux hiện có và quang SFP28 của họ, xác nhận hệ sinh thái MCX4121A-ACAT tương thích đáp ứng tất cả các yêu cầu.

Kết quả & Lợi ích: Tăng thông lượng và độ trễ có thể đo lường

Kiểm tra sau triển khai cho thấy những cải thiện đáng kể. Bảng dưới đây tóm tắt các chỉ số hiệu suất chính trước và sau khi di chuyển sang giải pháp MCX4121A-ACAT:

Chỉ số TCP 10GbE cũ MCX4121A-ACAT (RoCE) Cải thiện
Độ trễ trung bình (I/O 4KB) 35µs 2.1µs Thấp hơn 16,6 lần
Sử dụng CPU (trên mỗi 10Gb/s) 32% 4% Giảm 8 lần
Thông lượng tổng hợp (cổng kép) 18Gb/s 49Gb/s Cao hơn 2,7 lần

Ngoài các con số thô, thông số kỹ thuật MCX4121A-ACAT đã chuyển thành lợi ích hoạt động thực tế. Độ trễ sao chép cơ sở dữ liệu phân tán giảm hơn 80%, cho phép đảm bảo tính nhất quán mạnh mẽ hơn. IOPS đọc/ghi NVMe-oF tăng gấp đôi và các lõi CPU của nút lưu trữ trước đây được sử dụng cho xử lý ngăn xếp mạng đã được tái sử dụng cho các dịch vụ dữ liệu thực tế. Nhà cung cấp cũng lưu ý rằng giải pháp thẻ bộ điều hợp Ethernet MCX4121A-ACAT đã giảm tổng chi phí sở hữu — cần ít nút hơn để đạt được cùng một hiệu suất tổng hợp.

Đối với các tổ chức đánh giá nâng cấp tương tự, giá MCX4121A-ACAT định vị nó như một giải pháp thay thế hiệu quả về chi phí cho các giải pháp kết nối độc quyền. Nhiều nhà phân phối hiện niêm yết MCX4121A-ACAT để bán với giá theo số lượng, làm cho việc triển khai RoCE quy mô lớn ngày càng dễ tiếp cận.

Tóm tắt & Triển vọng: Bản thiết kế cho Trung tâm dữ liệu có độ trễ thấp

Việc triển khai này cho thấy NVIDIA Mellanox MCX4121A-ACAT không chỉ là một nâng cấp thông số kỹ thuật — nó là một yếu tố nền tảng cho các hệ thống phân tán hiệu suất cao. Bằng cách kết hợp băng thông 25GbE cổng kép với vận chuyển RoCE được giảm tải bằng phần cứng, bộ điều hợp giải quyết sự căng thẳng lâu dài giữa hiệu suất mạng và hiệu quả CPU. Khi các cụm đào tạo AI, lưu trữ tách rời và phân tích thời gian thực tiếp tục yêu cầu độ trễ thấp hơn và thông lượng cao hơn, MCX4121A-ACAT cung cấp một con đường đã được chứng minh, sẵn sàng cho sản xuất. Các kiến trúc sư mạng và quản lý CNTT đang tìm kiếm một bộ điều hợp máy chủ đáng tin cậy, hiệu suất cao không cần tìm đâu xa hơn sức mạnh của ConnectX-4 Lx này.