NVIDIA Mellanox MCX653106A-HDAT Giải pháp kỹ thuật: Cho phép truyền RDMA / RoCE chậm và tối đa hóa máy chủ
March 17, 2026
Kiến trúc trung tâm dữ liệu hiện đại ngày càng được định hình bởi nhu cầu xử lý dữ liệu thời gian thực, khối lượng công việc trí tuệ nhân tạo (AI) và máy tính hiệu năng cao (HPC). Các ngăn xếp mạng truyền thống, đặc biệt là TCP/IP, tạo ra chi phí CPU và độ trễ đáng kể có thể làm tê liệt các ứng dụng nhạy cảm về hiệu suất này. Các kiến trúc sư mạng và kỹ sư vận hành được giao nhiệm vụ xây dựng cơ sở hạ tầng có thể mở rộng hiệu quả đồng thời đáp ứng các thỏa thuận mức dịch vụ (SLA) nghiêm ngặt về độ trễ và thông lượng.
Yêu cầu cốt lõi được xác định trong bản thiết kế kỹ thuật này là thiết lập một fabric không mất gói, băng thông cao có khả năng hỗ trợ Truy cập Trực tiếp Bộ nhớ Từ xa (RDMA) qua Ethernet Hợp nhất (RoCE). Để đạt được điều này, card giao diện mạng (NIC) cơ bản phải không chỉ hỗ trợ tốc độ đường truyền 100/200GbE mà còn cung cấp các chức năng offload phần cứng tinh vi để giải phóng tài nguyên CPU của máy chủ. Đây là lúc MCX653106A-HDAT trở thành yếu tố nền tảng của giải pháp.
Kiến trúc được đề xuất là cấu trúc liên kết spine-leaf được thiết kế cho môi trường đám mây riêng, lưu trữ cả khối lượng công việc ảo hóa và các cụm HPC bare-metal. Mạng được phân đoạn để hỗ trợ lưu lượng RoCE, yêu cầu một fabric Ethernet không mất gói. Các thành phần thiết kế chính bao gồm:
- Switch Leaf: Các switch dòng NVIDIA Spectrum SN3000 được cấu hình với PFC (Kiểm soát Luồng Ưu tiên) và ETS (Lựa chọn Truyền Nâng cao) để tạo ra một fabric RoCE không mất gói.
- Switch Spine: Các switch dung lượng cao cung cấp kết nối không chặn giữa tất cả các switch leaf.
- Node Tính toán & Lưu trữ: Mỗi máy chủ được trang bị NVIDIA Mellanox MCX653106A-HDAT để kết nối với các switch leaf ở tốc độ 100Gb/s.
Thiết kế này đảm bảo rằng giao tiếp mọi-tới-mọi trong trung tâm dữ liệu trải nghiệm độ trễ tối thiểu và không mất gói nào do tắc nghẽn, điều này rất quan trọng đối với sự ổn định của lưu lượng RDMA.
Là một card mạng PCIe bộ điều hợp MCX653106A-HDAT ConnectX, thiết bị này đóng vai trò là giao diện quan trọng giữa bus bộ nhớ của máy chủ và fabric mạng. Vai trò của nó vượt xa việc chuyển tiếp gói tin đơn giản. Card tích hợp các khả năng tiên tiến của bộ điều khiển ConnectX-6, được chế tạo đặc biệt cho các môi trường đòi hỏi khắt khe này. Là một card bộ điều hợp Ethernet MCX653106A-HDAT hiệu năng cao, nó cho phép:
- Bỏ qua Kernel và RDMA: Các ứng dụng có thể giao tiếp trực tiếp với NIC, bỏ qua kernel hệ điều hành. Điều này làm giảm đáng kể độ trễ và sự tham gia của CPU, cho phép truyền tải độ trễ thấp RDMA/RoCE.
- Offload Phần cứng: Card offload các giao thức lưu trữ và mạng như NVMe-oF và VXLAN, giảm thêm chi phí CPU và tăng tốc thông lượng máy chủ.
- Hỗ trợ PCIe Gen3/Gen4: Với giao diện máy chủ PCIe 3.0/4.0 x16, MCX653106A-HDAT đảm bảo băng thông mạng 100/200Gb/s không bị nghẽn bởi bus nội bộ của máy chủ.
Đối với các kiến trúc sư xem xét chi tiết kỹ thuật, thông số kỹ thuật MCX653106A-HDAT cho thấy hỗ trợ hơn 200 triệu gói tin mỗi giây, thể hiện khả năng xử lý các luồng dữ liệu chuyên sâu nhất. Điều này làm cho nó trở thành giải pháp card bộ điều hợp Ethernet MCX653106A-HDAT lý tưởng cho các khối lượng công việc mục tiêu của chúng tôi.
Triển khai fabric RoCEv2 đòi hỏi kế hoạch cẩn thận. Các bước sau đây phác thảo chiến lược triển khai được đề xuất bằng cách sử dụng MCX653106A-HDAT:
- Tính nhất quán của Firmware và Driver: Đảm bảo tất cả các card được flash với cùng một phiên bản firmware và driver NVIDIA MLNX_OFED được cài đặt nhất quán trên tất cả các node. Điều này đảm bảo tính tương đồng về tính năng và sự ổn định.
- Cấu hình Switch: Triển khai PFC trên các switch cho các hàng đợi ưu tiên 802.1p cụ thể được chỉ định cho lưu lượng RoCE (thường là ưu tiên 3). ETS phải được cấu hình để phân bổ băng thông được đảm bảo cho các hàng đợi này, ngăn chặn sự cạn kiệt bộ đệm.
- Cấu hình Node: Trên mỗi máy chủ, các driver tương thích MCX653106A-HDAT được tải và cài đặt QoS của NIC được căn chỉnh với cấu hình switch. Các công cụ như 'cma_roce_mode' được sử dụng để đặt chế độ RoCE thành v2 để có thể định tuyến.
Để mở rộng, kiến trúc có khả năng mở rộng cao. Việc bổ sung dung lượng tính toán hoặc lưu trữ mới đơn giản như triển khai các máy chủ mới với NVIDIA Mellanox MCX653106A-HDAT và kết nối chúng với các switch leaf hiện có. Bản chất không chặn của fabric đảm bảo hiệu suất vẫn có thể dự đoán được khi cụm phát triển.
Duy trì fabric RoCE hiệu năng cao đòi hỏi khả năng giám sát mạnh mẽ. MCX653106A-HDAT cung cấp dữ liệu đo từ xa phong phú thông qua các công cụ tiêu chuẩn và phần mềm độc quyền của NVIDIA.
- Giám sát: Sử dụng 'mlxlink' và 'mlxstat' để kiểm tra tính toàn vẹn của liên kết và các bộ đếm hiệu suất. Tích hợp với Grafana/Prometheus bằng cách sử dụng các bộ xuất để trực quan hóa các chỉ số chính như mất gói, mức sử dụng liên kết và tốc độ lưu lượng RDMA.
- Khắc phục sự cố: Khi hiệu suất suy giảm, kiểm tra đầu tiên thường là mất gói do bão PFC hoặc cạn kiệt bộ đệm. Các bộ đếm phần cứng của NIC cung cấp thông tin chi tiết tức thì về các vấn đề này. Xem lại datasheet MCX653106A-HDAT giúp tương quan các bộ đếm với các sự kiện cụ thể.
- Tối ưu hóa: Tinh chỉnh nâng cao bao gồm việc điều chỉnh các tham số điều tiết ngắt và kích thước yêu cầu đọc PCIe. Đối với môi trường ảo hóa, việc bật SR-IOV và gán các chức năng ảo (VF) trực tiếp cho VM sẽ giảm độ trễ hơn nữa.
Khi tìm nguồn cung ứng phần cứng, việc hiểu giá MCX653106A-HDAT so với lợi ích hiệu suất là rất cần thiết cho việc lập ngân sách. Đối với những người sẵn sàng mua, việc kiểm tra danh sách MCX653106A-HDAT để bán từ các nhà phân phối được ủy quyền đảm bảo sản phẩm và hỗ trợ chính hãng.
MCX653106A-HDAT từ NVIDIA Mellanox không chỉ là một thành phần; nó là một yếu tố thúc đẩy chiến lược cho sự chuyển đổi trung tâm dữ liệu hiện đại. Bằng cách cung cấp một nền tảng mạnh mẽ, giàu tính năng cho RDMA/RoCE, nó trực tiếp giải quyết nhu cầu của ngành về độ trễ thấp hơn và thông lượng cao hơn. Giải pháp kỹ thuật này chứng minh rằng với kiến trúc và thực tiễn triển khai phù hợp, các tổ chức có thể đạt được:
- Giảm tới 95% độ trễ cho giao tiếp giữa các tiến trình so với TCP/IP truyền thống.
- Tiết kiệm CPU đáng kể (thường là 20-30%) có thể được tái đầu tư vào hiệu suất ứng dụng.
- Cơ sở hạ tầng sẵn sàng cho tương lai có khả năng hỗ trợ 200GbE và các giao thức lưu trữ thế hệ tiếp theo như NVMe-oF.
Đối với các kiến trúc sư mạng, kỹ sư DevOps và lãnh đạo vận hành, con đường dẫn đến một trung tâm dữ liệu hiệu quả cao bắt đầu bằng các khối xây dựng phù hợp.

