Giải pháp Kỹ thuật Card Máy chủ NVIDIA Mellanox MCX4121A-ACAT: Kiến trúc RDMA/RoCE cho Độ trễ Thấp và Tối đa

March 9, 2026

Giải pháp Kỹ thuật Card Máy chủ NVIDIA Mellanox MCX4121A-ACAT: Kiến trúc RDMA/RoCE cho Độ trễ Thấp và Tối đa


1. Bối cảnh dự án và phân tích yêu cầu

Các trung tâm dữ liệu hiện đại đang chịu áp lực liên tục để hỗ trợ các khối lượng công việc ngày càng khắt khe, bao gồm phân tích thời gian thực, huấn luyện học máy phân tán và lưu trữ phần mềm định nghĩa hiệu năng cao. Các kiến trúc mạng truyền thống, phụ thuộc nhiều vào ngăn xếp TCP/IP, gây ra độ trễ đáng kể và chi phí CPU cao. Khi tốc độ liên kết chuyển từ 10GbE lên 25GbE và cao hơn, phương pháp "bỏ qua nhân" (kernel bypass) không chỉ là một lợi thế mà còn là một yêu cầu bắt buộc. Các kiến trúc sư mạng và kỹ sư lưu trữ đang tìm kiếm các giải pháp có thể phát huy hết tiềm năng của kiến trúc NVMe-oF và microservices mà không yêu cầu phải đại tu toàn bộ cơ sở hạ tầng. Các yêu cầu chính được xác định trong một triển khai quy mô lớn điển hình bao gồm độ trễ dưới 10 micro giây cho lưu lượng lưu trữ, giảm 40% chi phí CPU cho I/O mạng và một fabric hợp nhất có khả năng mang cả lưu lượng TCP/IP tiêu chuẩn và lưu lượng RDMA có độ trễ cực thấp.

2. Thiết kế kiến trúc mạng và hệ thống tổng thể

Kiến trúc được đề xuất tập trung vào một fabric Ethernet hội tụ, không mất mát, được thiết kế để hỗ trợ cả lưu lượng LAN tiêu chuẩn và lưu lượng lưu trữ trên cùng một cơ sở hạ tầng vật lý. Thiết kế tận dụng cấu trúc liên kết lá-xương sống (leaf-spine) với các switch hỗ trợ RoCE (RDMA over Converged Ethernet). Các nguyên tắc thiết kế chính bao gồm:

  • Fabric hợp nhất: Một mạng 25GbE duy nhất mang tất cả các loại lưu lượng, loại bỏ nhu cầu về mạng lưu trữ và mạng dữ liệu riêng biệt (hội tụ LAN/SAN).
  • Nền tảng Ethernet không mất mát: Triển khai Kiểm soát Luồng Ưu tiên (PFC, IEEE 802.1Qbb) và Lựa chọn Truyền Dẫn Nâng cao (ETS, IEEE 802.1Qaz) để tạo ra một lớp dịch vụ không mất mát cho lưu lượng RDMA, ngăn chặn việc mất gói tin có thể gây ra các đỉnh trễ thảm khốc.
  • RDMA đầu cuối: Triển khai RoCEv2, hoạt động ở lớp mạng, cho phép RDMA vượt qua các ranh giới L3 và mở rộng ra ngoài một miền quảng bá duy nhất, không giống như RoCEv1.

Trong kiến trúc này, điểm cuối máy chủ là thành phần quan trọng nhất. Chính tại đây, bộ điều hợp máy chủ NVIDIA Mellanox MCX4121A-ACAT đóng vai trò then chốt, hoạt động như giao diện thông minh thực thi giao thức RoCE và giảm tải các chức năng mạng phức tạp khỏi CPU máy chủ.

3. Vai trò của NVIDIA Mellanox MCX4121A-ACAT trong giải pháp

MCX4121A-ACAT là nền tảng của việc triển khai phía máy chủ. Dựa trên bộ điều khiển ConnectX-4 Lx, bộ điều hợp MCX4121A-ACAT ConnectX-4 Lx dual-port 25GbE SFP28 này cung cấp khả năng tăng tốc phần cứng cần thiết để đạt được các mục tiêu của dự án. Các đóng góp cụ thể của nó cho kiến trúc được chi tiết dưới đây:

  • Công cụ RoCE phần cứng: Bộ điều hợp thực thi toàn bộ giao thức RoCEv2 bằng silicon. Điều này có nghĩa là các hoạt động RDMA, bao gồm đọc/ghi bộ nhớ và các lệnh gửi/nhận, được xử lý hoàn toàn trên NIC, bỏ qua nhân và loại bỏ các chuyển đổi ngữ cảnh. Đây là cơ chế chính để đạt được độ trễ từ ứng dụng đến ứng dụng dưới 10 micro giây.
  • Giảm tải NVMe-oF: Đối với lưu lượng lưu trữ, MCX4121A-ACAT hỗ trợ NVMe qua Fabrics (NVMe-oF) với RDMA. Nó giảm tải việc xử lý cặp hàng đợi NVMe, cho phép đích hoặc bộ khởi tạo lưu trữ xử lý hàng triệu IOPS với sự can thiệp tối thiểu của CPU.
  • Điều tiết ngắt động: Bộ điều hợp điều tiết ngắt một cách thông minh, hợp nhất chúng dựa trên tải lưu lượng. Điều này làm giảm chi phí CPU máy chủ trong các tình huống thông lượng cao trong khi vẫn duy trì độ trễ thấp cho lưu lượng nhạy cảm bằng cách cho phép các ngắt cho các hàng đợi cụ thể bỏ qua việc điều tiết.
  • Thực thi Chất lượng Dịch vụ (QoS): Nó hỗ trợ QoS dựa trên phần cứng, cho phép các kiến trúc sư gán các lớp lưu lượng khác nhau (ví dụ: lưu trữ, quản lý, tính toán) cho các hàng đợi ưu tiên khác nhau. Điều này đảm bảo rằng lưu lượng RDMA nhận được băng thông được đảm bảo và độ trễ thấp, ngay cả trong trường hợp tắc nghẽn mạng.

4. Khuyến nghị triển khai và mở rộng

Nên áp dụng phương pháp triển khai theo từng giai đoạn để giảm thiểu rủi ro. Cấu trúc liên kết và các bước sau đây phác thảo một cách triển khai điển hình:

  • Giai đoạn thử nghiệm: Triển khai một cụm nhỏ các máy chủ lưu trữ và các nút tính toán, mỗi nút được trang bị MCX4121A-ACAT, được kết nối với một switch lá hỗ trợ RoCE chuyên dụng. Xác minh cấu hình PFC/ETS để đảm bảo fabric không mất mát cho lưu lượng RoCE.
  • Tích hợp và kiểm tra: Cấu hình giải pháp card bộ điều hợp Ethernet MCX4121A-ACAT trên cả đích lưu trữ (ví dụ: Ceph, Lustre hoặc mảng NVMe-oF độc quyền) và các ứng dụng khách. Sử dụng các trình điều khiển và công cụ được NVIDIA khuyến nghị như perftest để đo độ trễ cơ bản (ib_send_lat) và băng thông (ib_send_bw).
  • Mở rộng Fabric: Sau khi giai đoạn thử nghiệm ổn định, hãy mở rộng lên cấu trúc liên kết lá-xương sống đầy đủ. Đảm bảo các switch xương sống cũng hỗ trợ RoCE để duy trì QoS không mất mát trên toàn bộ mạng. Tính năng hai cổng của NVIDIA Mellanox MCX4121A-ACAT cho phép liên kết dự phòng/chính hoặc tổng hợp liên kết 802.3ad để dự phòng và tăng thông lượng.
  • Kiểm tra tương thích: Luôn xác minh các phiên bản phần cứng và firmware tương thích với MCX4121A-ACAT. Thông số kỹ thuật MCX4121A-ACATbảng dữ liệu MCX4121A-ACAT nên được xem xét để đảm bảo khả năng tương thích với bo mạch chủ máy chủ, cài đặt BIOS và firmware switch. Để lập kế hoạch mua sắm, giá MCX4121A-ACAT và tính khả dụng có thể được lấy thông qua các nhà phân phối được ủy quyền, đặc biệt khi lên kế hoạch mua số lượng lớn MCX4121A-ACAT để bán.

5. Giám sát vận hành, khắc phục sự cố và tối ưu hóa

Duy trì hiệu suất cao nhất đòi hỏi phải giám sát chủ động và hiểu biết vững chắc về hoạt động của fabric RoCE. Các khuyến nghị chính cho các nhóm vận hành bao gồm:

  • Giám sát lưu lượng RDMA: Sử dụng các công cụ như ethtool, mlxstat, và UFM (Unified Fabric Manager) của NVIDIA để giám sát nhiệt độ bộ điều hợp, lỗi liên kết và trạng thái cặp hàng đợi RDMA. Các chỉ số quan trọng bao gồm: mất gói tin RoCE, số lượng khung tạm dừng PFC và việc sử dụng băng thông PCIe.
  • Cô lập lỗi: Độ trễ cao trong lưu lượng RDMA hầu như luôn luôn do mất gói tin vì tắc nghẽn. Điều tra các khung tạm dừng PFC; nếu một hàng đợi cụ thể bị tạm dừng quá mức, điều đó cho thấy một điểm nghẽn ở hạ nguồn (ví dụ: trên cổng ra của switch). Các bộ đếm nâng cao của MCX4121A-ACAT có thể giúp xác định chính xác nguồn gốc của tắc nghẽn.
  • Tinh chỉnh hiệu suất:
    • Kích thước MTU: Tăng lên 9000 byte (jumbo frames) trên cả bộ điều hợp và switch để giảm chi phí cho mỗi gói tin và cải thiện hiệu suất I/O lớn.
    • Scaling phía nhận (RSS): Đảm bảo RSS được cấu hình để phân phối lưu lượng trên nhiều lõi CPU, cho phép bộ điều hợp xử lý tốc độ gói tin mỗi giây (PPS) cao.
    • Tinh chỉnh bộ đệm: Điều chỉnh bộ đệm nhận và truyền của bộ điều hợp dựa trên đặc điểm khối lượng công việc (ví dụ: bộ đệm lớn hơn cho lưu trữ, nhỏ hơn cho HPC).

6. Kết luận và đánh giá giá trị

MCX4121A-ACAT từ NVIDIA Mellanox cung cấp một nền tảng trưởng thành, hiệu năng cao để xây dựng các trung tâm dữ liệu thế hệ tiếp theo. Bằng cách tích hợp bộ điều hợp này vào một fabric RoCEv2 được thiết kế tốt, các tổ chức có thể đạt được các kết quả mang tính chuyển đổi: thông lượng máy chủ có thể được tối đa hóa khi CPU được giải phóng khỏi chi phí mạng; độ trễ giảm đáng kể xuống còn vài micro giây, cho phép các ứng dụng thời gian thực; và tổng chi phí sở hữu được giảm thông qua việc hội tụ cơ sở hạ tầng. Đối với các kiến trúc sư đang lên kế hoạch cho lộ trình 25GbE của họ, MCX4121A-ACAT đại diện cho một khoản đầu tư chiến lược vào hiệu suất và hiệu quả, được hỗ trợ bởi hệ sinh thái mạnh mẽ của NVIDIA Mellanox.