NVIDIA Mellanox MCX653105A-HDAT Server Adapter Giải pháp kỹ thuật: RDMA / RoCE Low-Latency Transport cho máy chủ tối đa hóa

March 16, 2026

NVIDIA Mellanox MCX653105A-HDAT Server Adapter Giải pháp kỹ thuật: RDMA / RoCE Low-Latency Transport cho máy chủ tối đa hóa
1- Phân tích các dự án và các yêu cầu

Các trung tâm dữ liệu hiện đại đang chịu áp lực chưa từng có để cung cấp thông tin chi tiết nhanh hơn từ các bộ dữ liệu khổng lồ.hoặc các nền tảng giao dịch tần số cao, cơ sở hạ tầng mạng cơ bản thường trở thành nút thắt hiệu suất chính.Mạng dựa trên TCP / IP truyền thống áp dụng chi phí CPU đáng kể do xử lý lõi và sao chép dữ liệu, dẫn đến tăng độ trễ và giảm thông lượng hiệu quả. Khi số lượng lõi CPU tăng và lưu trữ NVMe trở nên phổ biến, mạng phải phát triển để hỗ trợ trực tiếp,Di chuyển dữ liệu tốc độ cao mà không đánh thuế bộ xử lý máy chủ.

Yêu cầu là rõ ràng: các kiến trúc sư cần một giải pháp mạng hỗ trợ Remote Direct Memory Access (RDMA) để bỏ qua lõi hệ điều hành,cho phép chuyển dữ liệu trực tiếp giữa bộ nhớ máy chủ và lưu trữ hoặc các máy chủ khácRDMA trên Ethernet hội tụ (RoCE) đã nổi lên như là tiêu chuẩn hàng đầu, cung cấp độ trễ lớp InfiniBand trên cơ sở hạ tầng Ethernet tiêu chuẩn.NVIDIA Mellanox MCX653105A-HDATmáy chủ adapter được xây dựng đặc biệt để đáp ứng các nhu cầu này, cung cấp nền tảng phần cứng cho một hiệu suất cao,vải RoCE không mất mát tối đa hóa công suất máy chủ và giảm thiểu độ trễ ứng dụng.

2Thiết kế kiến trúc mạng và hệ thống tổng thể

Kiến trúc được đề xuất tập trung vào một mô Ethernet không chặn, xương sống được thiết kế để hỗ trợ lưu lượng truy cập RoCEv2.Topology này đảm bảo kết nối bất cứ nơi nào với độ trễ thấp và băng thông caoCác cân nhắc thiết kế chính bao gồm:

  • Cấu hình vải không mất mát:Để cho phép RoCE, mạng phải không mất mát. Điều này đạt được thông qua Priority Flow Control (PFC) như được định nghĩa bởi IEEE 802.1Qbb,ngăn chặn việc giảm gói cho lưu lượng RDMA ưu tiên cao bằng cách tạm dừng dòng chảy ưu tiên thấp hơn khi xảy ra tắc nghẽn.
  • Quản lý tắc nghẽn:Thông báo tắc nghẽn rõ ràng (ECN) đánh dấu các gói để báo hiệu tắc nghẽn cho các điểm cuối, cho phépMCX653105A-HDATadapter để giảm tốc độ truyền trước khi xảy ra quá tải bộ đệm.
  • Thiết kế lá và cột sống:Mỗi máy chủ kết nối với một bộ chuyển đổi lá ở 100GbE. Các bộ chuyển đổi lá sau đó kết nối với nhiều bộ chuyển đổi cột sống, cung cấp băng thông phân đoạn đầy đủ.Kiến trúc này quy mô tuyến tính như nhiều giá đỡ được thêm vào.
  • Các phân đoạn lưu trữ và tính toán:Vải hỗ trợ cả lưu lượng lưu trữ NVMe-oF và giao tiếp giữa máy chủ cho các ứng dụng phân tán, tất cả đều sử dụng cùng một cơ sở hạ tầng hỗ trợ RoCE.

Trong kiến trúc này,NVIDIA Mellanox MCX653105A-HDATphục vụ như là điểm cuối quan trọng, cho phép máy chủ tham gia đầy đủ vào cấu trúc RDMA trong khi giảm tải các nhiệm vụ mạng từ CPU.

3Vai trò và đặc điểm chính của MCX653105A-HDAT trong giải pháp

CácMCX653105A-HDATlà một bộ chuyển đổi hai cổng 100Gb / s dựa trên kiến trúc NVIDIA Mellanox ConnectX-6. Nó là nền tảng của giải pháp RDMA / RoCE được đề xuất, cung cấp một số khả năng chính:

  • RoCE dựa trên phần cứng:Bộ chuyển đổi xử lý tất cả các chức năng vận chuyển RDMA trong phần cứng, bao gồm đóng gói gói, độ tin cậy và kiểm soát tắc nghẽn.đóng góp trực tiếp để cải thiện hiệu suất máy chủ.
  • Hỗ trợ PCIe Gen3/Gen4:Với hỗ trợ cho lên đến PCIe 4.0 x16,MCX653105A-HDAT Ethernet adapter cardcung cấp đủ băng thông máy chủ để đạt tốc độ đường dây 100Gb / s trên cả hai cổng đồng thời, cần thiết cho tải công việc NVMe-oF và HPC đòi hỏi.
  • Tăng cường ảo hóa:SR-IOV và tăng tốc VirtIO cho phép bộ điều hợp cung cấp hiệu suất gần như bản địa cho khối lượng công việc ảo hóa, làm cho nó phù hợp với môi trường đám mây và NFV.
  • Đường dẫn có thể lập trình:Máy phân tích linh hoạt cho phép xử lý gói tùy chỉnh và tải giao thức mới mà không cần nâng cấp phần cứng, đảm bảo đầu tư trong tương lai.

Theo quan chứcMCX653105A-HDAT thông số kỹ thuật, bộ chuyển đổi cũng hỗ trợ mã hóa trực tuyến dựa trên phần cứng và quản lý khóa, cung cấp RDMA an toàn mà không làm suy giảm hiệu suất.Điều này đặc biệt quan trọng đối với các dịch vụ tài chính và triển khai đám mây đa thuê bao, nơi cô lập và mã hóa dữ liệu là bắt buộc.

4. Các khuyến nghị triển khai và mở rộng quy mô

Một cách tiếp cận triển khai từng giai đoạn được khuyến cáo để giảm thiểu rủi ro và đảm bảo hiệu suất tối ưu:

  • Giai đoạn 1 ¢ Tập đoàn thí điểm:Xây dựngMCX653105A-HDAT ConnectX adapter thẻ mạng PCIeThiết lập các bộ chuyển đổi lá để cho phép PFC và ECN trên các cổng được kết nối với các máy chủ này.Xác nhận chức năng RDMA bằng cách sử dụng các công cụ so sánh như perftest.
  • Giai đoạn 2  Tích hợp mạng lưu trữ:Mở rộng triển khai đến tất cả các nút lưu trữ. di chuyển giao thông NVMe-oF đến các cấu trúc RoCE.MCX653105A-HDAT tương thíchtự nhiên với phần mềm lưu trữ chính đảm bảo chuyển đổi trơn tru.
  • Giai đoạn 3 ️ Việc triển khai sản xuất đầy đủ:Thiết lậpGiải pháp thẻ adapter MCX653105A-HDAT EthernetCho phép RDMA cho các ứng dụng phân tán như Spark, TensorFlow và cơ sở dữ liệu trong bộ nhớ.

Đối với quy mô, đảm bảo rằng vải lá xương sống được cung cấp quá mức để xử lý giao thông cao điểm.MCX653105A-HDAT để bántrong việc triển khai của bạn phát triển, tận dụng NVIDIA's Unified Fabric Manager (UFM) để tối ưu hóa tự động và giám sát sức khỏe.

5. Hoạt động, giám sát và tối ưu hóa

Duy trì một loại vải RoCE hiệu suất cao đòi hỏi giám sát và điều chỉnh chủ động:

  • Công cụ giám sát:Sử dụng Mellanox NEO và UFM để theo dõi sức khỏe vải, theo dõi khung tạm dừng PFC và phát hiện các điểm nóng tắc nghẽn.Bảng dữ liệu MCX653105A-HDATcung cấp thông tin chi tiết về máy tính có sẵn thông qua các công cụ tiêu chuẩn như ethtool.
  • Chế độ điều chỉnh hiệu suấtPhương pháp kết hợp gián đoạn tinh chỉnh, kích thước bộ đệm vòng và tham số PCIe dựa trên đặc điểm khối lượng công việc.có thể tự động điều chỉnh dựa trên các mô hình giao thông.
  • Giải quyết sự cố:Các vấn đề phổ biến bao gồm các cơn bão PFC do QoS cấu hình sai hoặc kiệt sức bộ đệm. Đảm bảo cấu hình QoS phù hợp trên tất cả các công tắc và điểm cuối. Kiểm tra rằngGiá MCX653105A-HDATvề hiệu suất được chứng minh bằng các thử nghiệm xác nhận thường xuyên.
  • Cập nhật phần mềm và trình điều khiển:Giữ firmware và trình điều khiển NVIDIA đống cập nhật để hưởng lợi từ tối ưu hóa mới nhất và sửa lỗi.MCX653105A-HDAT Ethernet adapter cardhỗ trợ phần mềm cố định có thể nâng cấp trên thực địa để cập nhật liền mạch.
6Kết luận và Đánh giá giá trị

CácNVIDIA Mellanox MCX653105A-HDATBộ chuyển đổi máy chủ cung cấp một nền tảng mạnh mẽ, hiệu suất cao cho các kiến trúc trung tâm dữ liệu hiện đại đòi hỏi độ trễ thấp và thông lượng cao.nó trực tiếp giải quyết CPU overhead nút thắt, giải phóng tài nguyên tính toán cho các ứng dụng tạo doanh thu.vải Ethernet không mất mát có khả năng hỗ trợ khối lượng công việc đòi hỏi cao nhất, từ đào tạo AI đến phân tích tài chính thời gian thực.MCX653105A-HDATđại diện cho một khối xây dựng quan trọng mang lại cả lợi ích hiệu suất ngay lập tức và giá trị dài hạn.