NVIDIA Mellanox MCX631432AN-ADAB Server Adapter trong hành động: RDMA / RoCE Giao thông chậm và tăng hiệu suất máy chủ
April 28, 2026
Trong môi trường trung tâm dữ liệu hiện đại, bộ lưu trữ phân tán, cụm đào tạo AI và nền tảng giao dịch tần số cao đều có chung một điểm nghẽn: độ trễ mạng và chi phí hoạt động của CPU do ngăn xếp TCP/IP truyền thống gây ra. Đối với một nhà cung cấp đám mây cỡ trung đang gặp khó khăn với hiệu suất lưu trữ không nhất quán và các liên kết truy cập 25GbE bị tắc nghẽn, việc tìm kiếm một giải pháp giảm tải phần cứng thực sự đã đưa họ đến với giải phápNVIDIA Mellanox MCX631432AN-ADAB. Nghiên cứu trường hợp ứng dụng này xem xét cách thứcThẻ bộ chuyển đổi Ethernet MCX631432AN-ADABđã chuyển đổi cơ sở hạ tầng của họ từ khả năng không thể đoán trước của CPU sang hoạt động tốc độ dòng, độ trễ thấp.
Bối cảnh & Thách thức: Chi phí của mạng thông thường
Môi trường kế thừa của nhà cung cấp dựa trên các NIC 25GbE tiêu chuẩn với iSCSI và NFS dựa trên phần mềm. Khi mật độ VM tăng lên, mức sử dụng CPU trên các nút lưu trữ cũng tăng theo—thường vượt quá 60% chỉ để xử lý mạng. Độ trễ tăng đột biến trong các cửa sổ sao lưu và di chuyển trực tiếp khiến ứng dụng hết thời gian chờ. Các kiến trúc sư cần một giải pháp 25GbE cổng kép có thể giảm tải truyền tải, thực thi bảo mật phần cứng và hỗ trợ RDMA mà không cần viết lại ứng dụng. Sau khi xem xét cácBảng dữ liệu MCX631432AN-ADABvà phản hồi sớm của cộng đồng, họ đã chọnMCX631432AN-ADAB ConnectX-6 Lx cổng kép 25GbE SFP28thiết kế làm nền tảng cho việc đại tu mạng của họ.
Giải pháp & Triển khai: Kích hoạt RoCE cho Lưu trữ và Điện toán
Việc triển khai đã thay thế các NIC hiện có trong 120 nút điện toán và 15 máy chủ lưu trữ bằngMCX631432AN-ADABbộ điều hợp. Mỗi bộ chuyển đổi được cấu hình cho RoCE (RDMA qua Ethernet hội tụ) bằng cách sử dụng ECN và PFC trên các thiết bị chuyển mạch dạng lá cột sống hiện có. Các bước chính bao gồm:
- Cho phép khởi động đáng tin cậy bằng phần cứng và giảm tải IPsec nội tuyến trên tất cả các bộ điều hợp để đáp ứng các yêu cầu tuân thủ.
- Di chuyển lưu lượng lưu trữ từ iSCSI sang NVMe qua Fabrics (NVMe-oF) bằng phương thức vận chuyển RoCE, được hỗ trợ đầy đủ bởiGiải pháp thẻ bộ điều hợp Ethernet MCX631432AN-ADABngăn xếp.
- Triển khai phép đo từ xa dựa trên Cumulus Linux của NVIDIA để giám sát hiệu suất RoECE trên mỗi cổng và thông báo tắc nghẽn.
Theo quan chứcThông số kỹ thuật MCX631432AN-ADAB, bộ điều hợp mang lại độ trễ phần cứng dưới 800ns và hỗ trợ thông lượng hai chiều lên tới 200Gb/s khi ghép nối với máy chủ PCIe 4.0. Trong thực tế, nhóm kỹ thuật đã đo độ trễ nhất quán ở mức ứng dụng là 1,5µs cho các lần đọc NVMe-oF—cải thiện gấp 14 lần so với đường dẫn iSCSI phần mềm trước đó. Mức sử dụng CPU trên các máy chủ lưu trữ đã giảm từ 58% xuống chỉ còn 11% trong các lần kiểm tra IOPS cao điểm nhờ giảm tải toàn bộ giao thức và kiểm duyệt ngắt động.
Kết quả có thể đo lường được và lợi ích kinh doanh
Sau bốn tuần chạy sản xuất, nhà cung cấp đã báo cáo ba lợi ích chính:
- Nâng cao thông lượng:Mỗi nút lưu trữ hiện đã bão hòa cả hai cổng 25GbE (tổng cộng 49,5Gbit/s) trong khi vẫn duy trì độ giật dưới micro giây, so với thông lượng hiệu quả 18Gbit/s trước đó.
- Độ trễ nhất quán:Độ trễ ghi ở phân vị thứ 99 cho cơ sở dữ liệu phân tán đã giảm từ 780µs xuống 94µs, loại bỏ thời gian chờ trong quá trình tái cân bằng cụm.
- Sự đơn giản trong vận hành:Một bộ trình điều khiển quản lý cả bộ điều hợp điện toán và bộ lưu trữ; cáiTương thích MCX631432AN-ADABhệ sinh thái bao gồm tất cả các bản phân phối Linux chính, cho phép cập nhật kernel không có thời gian ngừng hoạt động.
Hơn nữa, nhóm nghiên cứu đã đánh giáGiá MCX631432AN-ADABso với tổng chi phí sở hữu và nhận thấy rằng tính năng gốc tin cậy của phần cứng và giảm tải RoCE của bộ chuyển đổi đã loại bỏ nhu cầu về các thiết bị mã hóa riêng biệt và RNIC chuyên dụng, dẫn đến TCO trong ba năm thấp hơn 33%. Đối với các tổ chức đang xem xét mở rộng,Cần bán MCX631432AN-ADABthông qua các nhà phân phối lớn hiện đưa ra mức giá theo số lượng, giúp việc nâng cấp quy mô lớn trở nên khả thi về mặt tài chính.
Tóm tắt & Triển vọng
cácNVIDIA Mellanox MCX631432AN-ADABđã được chứng minh là không chỉ là một giao diện mạng đơn giản—nó đã trở thành công cụ hỗ trợ cho một kết cấu có độ trễ thấp, hội tụ thực sự. Bằng cách chuyển quy trình xử lý truyền tải từ CPU sang silicon, nhà cung cấp đã khai thác toàn bộ tiềm năng của bộ lưu trữ NVMe và giảm mức tiêu thụ điện năng trên mỗi máy chủ trung bình xuống 18W. Khi các trung tâm dữ liệu tiếp tục áp dụng phương pháp lưu trữ phân tán và suy luận AI theo thời gian thực,MCX631432AN-ADAB ConnectX-6 Lx cổng kép 25GbE SFP28adapter cung cấp một lộ trình hoàn thiện, được ghi chép đầy đủ và được triển khai rộng rãi để đạt được thành công RDMA/RoCE. Các kiến trúc sư CNTT đang tìm kiếm mức tăng hiệu suất lặp lại có thể tự tin tham khảo trường hợp này khi lập kế hoạch cho các sáng kiến hiện đại hóa 25GbE của riêng họ.

