Tài liệu Kỹ thuật về Bộ điều hợp Máy chủ NVIDIA Mellanox MCX653106A-HDAT
April 30, 2026
Tài liệu kỹ thuật chuyên sâu này dành cho các kiến trúc sư mạng, kỹ sư tiền bán hàng và các nhà quản lý vận hành. Tài liệu cung cấp một tài liệu tham khảo toàn diện để thiết kế và triển khai các mạng trung tâm dữ liệu hiệu suất cao, độ trễ thấp bằng cách sử dụng NVIDIA Mellanox MCX653106A-HDAT, tập trung vào giao thức truyền tải RDMA/RoCE và các cải thiện thông lượng máy chủ có thể đo lường.
Các khối lượng công việc trung tâm dữ liệu hiện đại — bao gồm các fabric lưu trữ NVMe-oF, đào tạo AI phân tán, giao dịch tần suất cao và phân tích thời gian thực — đặt ra các yêu cầu cực kỳ cao đối với cơ sở hạ tầng mạng. Việc xử lý ngăn xếp TCP/IP truyền thống tạo ra ba điểm nghẽn cơ bản: chi phí CPU cao (thường vượt quá 50% chu kỳ lõi), độ trễ biến đổi do hạn chế bỏ qua kernel và giảm thông lượng hiệu quả từ chi phí xử lý giao thức. Các tổ chức yêu cầu một giải pháp cung cấp băng thông tốc độ đường truyền với độ trễ dưới micro giây, đồng thời giải phóng tài nguyên CPU cho logic ứng dụng. Các yêu cầu chính bao gồm RDMA được offload bằng phần cứng, giao thức truyền tải RoCE không mất mát, tích hợp liền mạch với các fabric Ethernet hiện có và các công cụ vận hành toàn diện để giám sát và khắc phục sự cố.
Kiến trúc được đề xuất áp dụng cấu trúc liên kết Clos hai tầng (spine-leaf) được tối ưu hóa cho giao thức truyền tải RoCE. Các switch leaf cung cấp kết nối máy chủ với DCB (Priority Flow Control, Enhanced Transmission Selection) được cấu hình để đảm bảo hoạt động không mất mát cho lưu lượng RDMA. Các switch spine cho phép giao tiếp mọi-mọi không bị chặn trên toàn bộ fabric. Mỗi nút tính toán và lưu trữ tích hợp card mạng Ethernet MCX653106A-HDAT, kết nối với các switch leaf thông qua hai cổng 100GbE được cấu hình ở chế độ active-active bonding. Kiến trúc tách biệt lưu lượng RDMA (hàng đợi ưu tiên chuyên dụng với PFC được bật) khỏi lưu lượng TCP/IP thông thường (hàng đợi best-effort), đảm bảo độ trễ thấp xác định cho các luồng quan trọng. Phân đoạn VLAN cô lập các miền RDMA trong khi định tuyến xử lý giao tiếp giữa các mạng con khi cần thiết.
Card mạng máy chủ Card mạng PCIe ConnectX-6 MCX653106A-HDAT đóng vai trò là nền tảng của giải pháp này. Được xây dựng trên kiến trúc ConnectX-6 với giao diện máy chủ PCIe 4.0 x16, nó cung cấp thông lượng hai cổng 100GbE (hoặc một cổng 200GbE) với độ trễ dưới 600ns trong các khối lượng công việc RDMA. Các tính năng chính được tận dụng trong thiết kế này bao gồm:
- RDMA & RoCE Offload bằng phần cứng: Offload hoàn toàn các lệnh RDMA, loại bỏ sự tham gia của CPU máy chủ cho việc di chuyển dữ liệu. Hỗ trợ cả RoCE v1 và v2.
- Bộ tăng tốc NVMe-oF: Logic phần cứng tăng tốc các lệnh NVMe, giảm độ trễ truy cập lưu trữ hơn 80% so với các mục tiêu phần mềm.
- Đường dẫn dữ liệu có thể lập trình (ASAP²): Cho phép xử lý gói tin linh hoạt và offload các mạng overlay (VXLAN, GENEVE).
- Multi-Host & GPU Direct RDMA: Giao tiếp trực tiếp peer-to-peer giữa các GPU trên các nút mà không cần sự can thiệp của CPU — rất quan trọng đối với các cụm AI.
- Giám sát & Kiểm soát tắc nghẽn: Giám sát luồng dựa trên phần cứng, đánh dấu ECN và giới hạn tốc độ động.
Các kỹ sư xem xét datasheet MCX653106A-HDAT sẽ lưu ý hỗ trợ cả hai dạng yếu tố chuẩn và OCP 3.0, phạm vi hệ điều hành toàn diện (các bản phân phối Linux với MLNX_OFED, Windows, ESXi) và khả năng tương thích máy chủ rộng. Thông số kỹ thuật MCX653106A-HDAT cũng xác nhận mức tiêu thụ điện năng tối đa 75W và nhiệt độ hoạt động từ 0°C đến 55°C, phù hợp cho các triển khai mật độ cao.
Việc triển khai tuân theo phương pháp từng giai đoạn. Một cấu trúc liên kết thí điểm điển hình hai rack được minh họa bên dưới:
| Thành phần | Cấu hình | Số lượng |
|---|---|---|
| Nút tính toán/lưu trữ | Dual Socket Intel/AMD, RAM 256GB+, ổ NVMe | 16 |
| NIC mỗi nút | MCX653106A-HDAT(hai cổng 100GbE) | 16 |
| Switch Leaf | Mellanox SN3700 (32x 100GbE, DCB được bật) | 2 |
| Switch Spine | Mellanox SN3700 (uplink 100GbE) | 1 (mở rộng lên 2 để dự phòng) |
Các bước triển khai:
- Bước 1 – Xác thực: Xác nhận các máy chủ tương thích MCX653106A-HDAT, firmware switch và phiên bản kernel OS. Sử dụng ma trận tương thích từ datasheet MCX653106A-HDAT.
- Bước 2 – Cài đặt Driver: Triển khai gói driver MLNX_OFED (phiên bản tối thiểu 5.8) trên tất cả các nút. Bật các module kernel RDMA và RoCE.
- Bước 3 – Cấu hình Fabric: Bật PFC (ưu tiên 3 cho RDMA) và ETS trên các switch leaf. Cấu hình MTU 9000 để hỗ trợ jumbo frame.
- Bước 4 – Thiết lập RoCE: Cấu hình mỗi card mạng Ethernet MCX653106A-HDAT với RoCE v2 (có thể định tuyến) hoặc v1 (không thể định tuyến). Đặt chế độ GID thành RoCE v2 với địa chỉ IPv4.
- Bước 5 – Xác minh: Chạy các bài kiểm tra ib_write_bw và ib_send_lat giữa các nút để xác thực băng thông và độ trễ. Giám sát bằng
perfqueryhiện tại và thời gian giao hàngmlnx_perf.
Để mở rộng vượt quá 16 nút, chuyển sang cấu trúc liên kết spine-leaf với các switch spine dự phòng hỗ trợ lên đến 128 nút. Giải pháp card mạng Ethernet MCX653106A-HDAT mở rộng tuyến tính mà không cần cấu hình lại fabric, vì RoCE sử dụng ECMP để phân phối tải trên nhiều đường dẫn.
Vận hành hiệu quả các môi trường RDMA/RoCE đòi hỏi các công cụ chuyên dụng. Các phương pháp sau đây được khuyến nghị:
- Phát hiện tắc nghẽn: Giám sát các gói tin pause của PFC trên mỗi cổng bằng cách sử dụng telemetry của switch (ví dụ: Mellanox SHARP). Tỷ lệ pause tăng cao cho thấy hiện tượng incast hoặc micro-bursts yêu cầu điều chỉnh luồng.
- Cơ sở hiệu suất: Sử dụng
mlx5cmdhiện tại và thời gian giao hàngethtool -Sđể thu thập các bộ đếm RDMA trên mỗi hàng đợi. Theo dõi các hoàn thành ngoài thứ tự và truyền lại. - Tinh chỉnh ECN & DCQCN: Bật Explicit Congestion Notification (ECN) trên các switch và cấu hình các tham số Dynamic Congestion Control (DCQCN) trên driver MCX653106A-HDAT (ví dụ:
dcqcn_r_ai=40,dcqcn_r_hai=10). - Phân tích Log: Xem xét
/var/log/messagesđể biết các lỗi kết nối RDMA (ví dụ: “mlx5_core: failed to create QP”). Xác minh các chỉ số GID khớp giữa các điểm cuối. - Cập nhật Firmware: Cập nhật firmware NIC thường xuyên thông qua
mlxfwmanager. Thông số kỹ thuật MCX653106A-HDAT khuyến nghị một baseline firmware là xx.36.1010 trở lên để có hiệu suất RoCE tối ưu. - Lập kế hoạch dung lượng: Đối với các tổ chức ước tính giá MCX653106A-HDAT hiện tại và thời gian giao hàng MCX653106A-HDAT để bán, dự kiến tốc độ tăng trưởng lưu lượng RDMA và lập kế hoạch tỷ lệ oversubscription của switch leaf (thường là 3:1 cho các fabric lưu trữ).
Một kịch bản khắc phục sự cố phổ biến: độ trễ một chiều cao với mất gói tin bằng không thường cho thấy các ngưỡng ECN được cấu hình sai hoặc cài đặt PFC không đối xứng. Sử dụng mlnx_qos để xác minh chế độ trust và ánh xạ DSCP sang ưu tiên trên tất cả các thành phần mạng.
Card mạng máy chủ NVIDIA Mellanox MCX653106A-HDAT cung cấp một nền tảng sẵn sàng cho sản xuất để triển khai các mạng RDMA/RoCE hiệu suất cao. Giải pháp kỹ thuật này mang lại giá trị định lượng trên nhiều khía cạnh:
- Hiệu suất: Thông lượng lên đến 200Gb/s mỗi adapter với độ trễ dưới micro giây, cho phép mở rộng lưu trữ và các khối lượng công việc tính toán phân tán trước đây bị giới hạn bởi chi phí TCP.
- Hiệu quả: Các offload phần cứng giảm mức tiêu thụ CPU liên quan đến mạng từ >50% xuống dưới 15%, giải phóng các lõi cho xử lý ứng dụng.
- TCO: Giải pháp card mạng Ethernet MCX653106A-HDAT giảm số lượng nút cần thiết cho một mục tiêu thông lượng nhất định, giảm chi phí vốn và chi phí vận hành. Khi đánh giá giá MCX653106A-HDAT, hãy xem xét thời gian hoàn vốn 9–12 tháng chỉ từ những lợi ích về hiệu quả.
- Sẵn sàng cho tương lai: Hỗ trợ PCIe 5.0 (tương thích ngược) và khả năng lập trình thông qua DOCA đảm bảo bảo vệ đầu tư khi tốc độ trung tâm dữ liệu di chuyển lên 200/400GbE.
Đối với các kiến trúc sư tìm kiếm một mẫu thiết kế đã được kiểm nghiệm trong sản xuất, giải pháp này tích hợp liền mạch vào các hoạt động Ethernet hiện có trong khi vẫn phát huy tối đa tiềm năng của RDMA. Tham khảo datasheet MCX653106A-HDAT để biết bản vẽ cơ khí chi tiết, sơ đồ thời gian và mô tả tính năng nâng cao. Để được hướng dẫn mua hàng, bao gồm giá MCX653106A-HDAT hiện tại và thời gian giao hàng MCX653106A-HDAT để bán, hãy liên hệ với các đối tác phân phối NVIDIA Mellanox được ủy quyền.

