NVIDIA Mellanox MCX653106A-HDAT Hoạt Động: Biến Đổi Truyền Dẫn Độ Trễ Thấp RDMA/RoCE và Thông Lượng Máy Chủ
March 17, 2026
Trong kỷ nguyên phân tích thời gian thực và khối lượng công việc do AI điều khiển, các trung tâm dữ liệu đang chịu áp lực liên tục phải cung cấp nhiều dữ liệu hơn với độ trễ thấp hơn. Một nhà cung cấp dịch vụ đám mây hàng đầu gần đây đã đối mặt với một thách thức quan trọng: cụm lưu trữ phân tán của họ gặp khó khăn với tải CPU và độ trễ bị gián đoạn do các giao thức TCP/IP truyền thống gây ra. Để mở rộng cơ sở hạ tầng một cách hiệu quả, họ cần một giải pháp có thể giảm tải xử lý mạng và cho phép bỏ qua nhân thực sự. Đây là câu chuyện về cách MCX653106A-HDAT trở thành nền tảng cho việc nâng cấp cơ sở hạ tầng của họ.
Các khối lượng công việc đào tạo AI và tính toán hiệu năng cao (HPC) của công ty yêu cầu di chuyển lượng lớn dữ liệu giữa hàng trăm nút. Tuy nhiên, các card mạng 25GbE hiện có đã tiêu tốn tới 30% lõi CPU chỉ để quản lý lưu lượng mạng. Điều này không chỉ làm tăng chi phí vận hành mà còn gây ra các đỉnh trễ không thể đoán trước trong thời gian tải cao điểm. Đội ngũ kỹ thuật nhận ra rằng để đạt được hiệu suất mong muốn cho hệ thống tệp song song của họ, họ cần áp dụng RDMA (Truy cập bộ nhớ trực tiếp từ xa) qua Ethernet hợp nhất (RoCE). Cuộc tìm kiếm một giải pháp NVIDIA Mellanox MCX653106A-HDAT hiệu năng cao, đáng tin cậy đã bắt đầu.
Sau khi đánh giá kỹ lưỡng phần cứng có sẵn, đội ngũ đã chọn card mạng PCIe adapter MCX653106A-HDAT ConnectX. Việc triển khai nhắm vào các nút lưu trữ và tính toán trong môi trường đám mây riêng của họ. Tận dụng khả năng hỗ trợ gốc của card cho RoCE, đội ngũ đã cấu hình các fabric Ethernet không mất mát bằng cách sử dụng Kiểm soát luồng ưu tiên (PFC) và Lựa chọn truyền dẫn nâng cao (ETS). Quá trình cài đặt được hợp lý hóa nhờ khả năng tương thích PCIe 3.0/4.0 của card, cho phép tích hợp liền mạch vào cả máy chủ mới và hiện có.
card adapter Ethernet MCX653106A-HDAT đã được cấu hình để hỗ trợ các liên kết 100Gb/s, cung cấp nâng cấp băng thông ngay lập tức. Bằng cách sử dụng các khả năng giảm tải phần cứng của kiến trúc ConnectX-6, đội ngũ đã chuyển thành công việc xử lý mạng từ CPU sang chính card. Để đảm bảo hiệu suất tối ưu, các kỹ sư đã tham khảo rộng rãi thông số kỹ thuật MCX653106A-HDAT và các hướng dẫn tinh chỉnh để tinh chỉnh kích thước bộ đệm và cài đặt điều tiết ngắt, tạo nền tảng vững chắc cho lưu lượng RDMA.
Tác động của việc triển khai MCX653106A-HDAT là ngay lập tức và mang tính chuyển đổi. Bảng sau đây minh họa những cải thiện về hiệu suất được quan sát trong môi trường sản xuất sau khi di chuyển sang RDMA/RoCE:
| Chỉ số | Trước khi triển khai (TCP/IP) | Sau khi triển khai (RoCE v2) |
|---|---|---|
| Độ trễ trung bình (IPC) | 12 µs | 2,1 µs |
| Sử dụng CPU (Mạng) | 28% | 5% |
| Thông lượng trên mỗi nút | 18 Gb/s (hiệu quả) | 98 Gb/s (tốc độ đường truyền) |
Với NVIDIA Mellanox MCX653106A-HDAT được trang bị, giải pháp lưu trữ phân tán của công ty đã giảm độ trễ tới 6 lần. Điều này trực tiếp dẫn đến việc kiểm tra điểm nhanh hơn cho các mô hình AI và phân tích thời gian thực mượt mà hơn. Các lõi CPU được giải phóng đã được phân bổ lại cho các khối lượng công việc ứng dụng, tăng hiệu quả tổng thể của cụm lên hơn 20%. Đối với các nhà quản lý CNTT, khả năng hiển thị do viễn trắc nâng cao của card cung cấp đã giúp việc lập kế hoạch dung lượng và phân tích nút thắt cổ chai trở nên chính xác hơn đáng kể.
Được khuyến khích bởi thành công, đội ngũ kỹ thuật hiện đang lên kế hoạch mở rộng việc triển khai sang môi trường ảo hóa của họ. Khả năng tương thích MCX653106A-HDAT với các trình ảo hóa chính và hỗ trợ SR-IOV làm cho nó trở thành một ứng cử viên lý tưởng cho các kiến trúc đám mây đa người thuê. Khi họ đánh giá việc mua thêm thiết bị, giá MCX653106A-HDAT được xem không phải là chi phí, mà là một khoản đầu tư chiến lược vào hiệu suất. Đội ngũ cũng đang khám phá giải pháp card adapter Ethernet MCX653106A-HDAT cho các triển khai NVMe-oF, nhằm mục đích xây dựng một fabric lưu trữ hoàn toàn tách rời.
Nghiên cứu điển hình này cho thấy rằng đối với các tổ chức nghiêm túc trong việc giảm độ trễ và tối đa hóa thông lượng máy chủ, MCX653106A-HDAT không chỉ là một card mạng; nó là một công cụ hỗ trợ quan trọng cho cơ sở hạ tầng thế hệ tiếp theo. Để có sơ đồ kiến trúc chi tiết và xác minh yêu cầu hệ thống của riêng bạn, datasheet MCX653106A-HDAT chính thức cung cấp tất cả chiều sâu kỹ thuật cần thiết.

