Điểm nghẽn mạng trong cụm đào tạo AI: Giải pháp từ Mellanox

September 23, 2025

tin tức mới nhất của công ty về Điểm nghẽn mạng trong cụm đào tạo AI: Giải pháp từ Mellanox
Giải phóng tiềm năng AI: Mellanox giải quyết các nút thắt cổ chai mạng trong các cụm GPU quy mô lớn

Thông cáo báo chí:Khi các mô hình Trí tuệ Nhân tạo phát triển theo cấp số nhân về độ phức tạp, nhu cầu về điện toán hiệu năng cao, có khả năng mở rộng chưa bao giờ lớn hơn. Một thành phần quan trọng nhưng thường bị bỏ qua là mạng AI cơ bản kết nối hàng nghìn GPU. Mellanox, một công ty tiên phong trong các giải pháp liên kết hiệu năng cao, đang giải quyết chính xác thách thức này bằng công nghệ liên kết độ trễ thấp tiên tiến của mình, được thiết kế để loại bỏ các nút thắt cổ chai và tối đa hóa hiệu quả của mọi cụm GPU.

Thách thức ngày càng tăng của các nút thắt cổ chai mạng AI

Việc huấn luyện AI hiện đại, đặc biệt đối với các Mô hình Ngôn ngữ Lớn (LLM) và thị giác máy tính, dựa vào xử lý song song trên các mảng GPU rộng lớn. Các phân tích trong ngành chỉ ra rằng trong một cụm 1024-GPU, các nút thắt cổ chai liên quan đến mạng có thể khiến việc sử dụng GPU giảm từ mức tiềm năng 95% xuống dưới 40%. Sự kém hiệu quả này chuyển trực tiếp thành thời gian huấn luyện kéo dài, tăng mức tiêu thụ điện năng và chi phí vận hành cao hơn đáng kể, khiến cho việc mạng AI được tối ưu hóa không chỉ là một lợi thế mà còn là một nhu cầu thiết yếu.

Giải pháp mạng AI End-to-End của Mellanox

Cách tiếp cận của Mellanox là toàn diện, cung cấp một ngăn xếp cơ sở hạ tầng hoàn chỉnh được thiết kế cho khối lượng công việc AI. Cốt lõi của giải pháp này là dòng công tắc Ethernet Spectrum và dòng Thẻ Giao diện Mạng Thông minh (NIC) ConnectX. Các thành phần này được thiết kế đặc biệt để hoạt động đồng bộ, tạo ra một đường ống dữ liệu không ma sát giữa các máy chủ.

Các yếu tố khác biệt công nghệ chính bao gồm:

  • Điện toán trong Mạng: Giảm tải các tác vụ xử lý dữ liệu từ CPU sang NIC, giảm đáng kể độ trễ.
  • Định tuyến thích ứng & RoCE: Đảm bảo lựa chọn đường dẫn dữ liệu tối ưu và tận dụng RDMA qua Ethernet hội tụ (RoCE) để giao tiếp liên kết độ trễ thấp hiệu quả.
  • Cấu trúc phân cấp có thể mở rộng: Hỗ trợ các kiến trúc Clos (lá-xương sống) không chặn có thể mở rộng đến hàng chục nghìn cổng mà không làm giảm hiệu suất.
Mức tăng hiệu suất có thể định lượng được cho khối lượng công việc AI

Hiệu quả của giải pháp Mellanox đã được chứng minh trong các triển khai thực tế. Bảng sau minh họa sự so sánh hiệu suất giữa mạng TCP/IP tiêu chuẩn và cấu trúc RoCE do Mellanox hỗ trợ trong môi trường huấn luyện AI quy mô lớn.

Số liệu Cấu trúc TCP/IP tiêu chuẩn Cấu trúc RoCE của Mellanox Cải thiện
Thời gian hoàn thành công việc (1024 GPU) 48 giờ 29 giờ Nhanh hơn ~40%
Mức sử dụng GPU trung bình 45% 90% Cao hơn gấp 2 lần
Độ trễ giữa các nút > 100 µs < 1.5 µs Thấp hơn ~99%
Kết luận và Giá trị chiến lược

Đối với các doanh nghiệp và tổ chức nghiên cứu đầu tư hàng triệu đô la vào tài nguyên tính toán GPU, mạng là hệ thống thần kinh trung ương xác định ROI tổng thể. Các giải pháp mạng AI của Mellanox cung cấp liên kết độ trễ thấp quan trọng cần thiết để đảm bảo rằng một cụm GPU đa nút hoạt động như một siêu máy tính duy nhất, gắn kết. Điều này chuyển thành thời gian thu thập thông tin nhanh hơn, giảm tổng chi phí sở hữu (TCO) và khả năng giải quyết các thách thức AI tham vọng hơn.