Phân tích Kiến trúc Mạng của Mellanox để Hỗ trợ Huấn luyện Mô hình AI Quy mô Lớn

September 28, 2025

tin tức mới nhất của công ty về Phân tích Kiến trúc Mạng của Mellanox để Hỗ trợ Huấn luyện Mô hình AI Quy mô Lớn
Giải phóng tiềm năng AI: Cách kiến trúc Mellanox InfiniBand tối ưu hóa đào tạo mô hình AI quy mô lớn

Tóm lại:Như các yêu cầu tính toán choĐào tạo mô hình AIBài viết này đi sâu vào cách Mellanox (nay là một phần của NVIDIA)Mạng GPUgiải pháp, được xây dựng trênMellanox InfiniBandcông nghệ, đang thiết kế các kết nối tốc độ cao cần thiết để đào tạo các mô hình AI lớn một cách hiệu quả, giảm thời gian đào tạo từ vài tuần đến vài ngày.

Rào cản mạng trong đào tạo mô hình AI hiện đại

Kích thước của các mô hình AI hiện đại, với số tham số tăng lên hàng trăm tỷ, đòi hỏi xử lý song song trên hàng ngàn GPU.thời gian GPU dành cho việc chờ đợi dữ liệu từ các nút khácCác phân tích trong ngành cho thấy rằng trong các cụm quy mô lớn, mạng không hiệu quả có thể khiến hơn 50% năng lượng tính toán GPU đắt tiền không hoạt động.Nó là hệ thần kinh trung tâm của siêu máy tính AI.

Mellanox InfiniBand: Động cơ cho mạng GPU hiệu suất cao

Mellanox InfiniBand đã nổi lên như là tiêu chuẩn thực tế để kết nối GPU trong môi trường máy tính hiệu suất cao (HPC) và AI.Kiến trúc của nó là mục đích xây dựng để giải quyết các thách thức chính xác đặt ra bởi phân tánĐào tạo mô hình AINhững lợi thế công nghệ chính bao gồm:

  • Ultra-Low Latency & High Bandwidth:Cung cấp độ trễ quy mô nano giây và băng thông vượt quá 400 Gb / s (NDR), đảm bảo luồng dữ liệu giữa GPU với sự chậm trễ tối thiểu.
  • Truy cập trực tiếp bộ nhớ từ xa (RDMA):Cho phép GPU đọc và ghi vào bộ nhớ của các GPU khác trực tiếp, bỏ qua CPU và kernel hệ điều hành. Điều này làm giảm đáng kể độ trễ và chi phí CPU.
  • SharpTM In-Network Computing:Một tính năng mang tính cách mạng giúp chuyển tải các hoạt động giảm (như MPI_ALLREDUCE) vào mạng tự động chuyển đổi mạng từ thụ động sang hoạt độngtăng tốc các hoạt động tập thể là cơ bản cho đào tạo AI.
Tác động có thể đo lường về hiệu quả đào tạo

Sự vượt trội về kiến trúc của Mellanox InfiniBand được chuyển trực tiếp sang kết quả kinh doanh và nghiên cứu hữu hình.Các thử nghiệm so sánh cho thấy hiệu suất đáng kể so với các công nghệ mạng thay thế.

Kịch bản đào tạo Mạng Ethernet tiêu chuẩn Mellanox InfiniBand Network Tăng hiệu quả
ResNet-50 (256 GPU) ~ 6,5 giờ ~ 4,2 giờ 35% nhanh hơn
BERT-Large (1024 GPU) ~ 85 giờ ~ 48 giờ 43% nhanh hơn

Những lợi ích hiệu quả này trực tiếp chuyển thành chi phí điện toán đám mây thấp hơn, chu kỳ lặp lại nhanh hơn cho các nhà nghiên cứu và thời gian ra thị trường nhanh hơn cho các sản phẩm dựa trên AI.

Cơ sở hạ tầng AI chống lại tương lai

Chuyến đi của AI đòi hỏi một mạng có thể mở rộng quy mô. lộ trình của Mellanox InfiniBand, với kế hoạch tiến triển đến 800 Gb / s (XDR) và xa hơn,đảm bảo rằng mạng lưới sẽ không là yếu tố hạn chế cho các đổi mới AI thế hệ tiếp theoSự tích hợp liền mạch của nó với các khung NGC và ngăn xếp tính toán của NVIDIA cung cấp một giải pháp toàn diện, tối ưu cho các doanh nghiệp xây dựng cơ sở hạ tầng AI của họ.

Kết luận và giá trị chiến lược

Đối với bất kỳ tổ chức nào nghiêm túc về việc tận dụng trí tuệ nhân tạo quy mô lớn, tối ưu hóa cơ sở hạ tầng mạng không còn là tùy chọn.Mạng GPUvớiMellanox InfiniBandlà một điều bắt buộc chiến lược để tối đa hóa ROI trên các cụm GPU, tăng tốc nghiên cứu và phát triển và duy trì lợi thế cạnh tranh.Đào tạo mô hình AI.