Phân tích kiến trúc mạng lưới huấn luyện mô hình lớn AI của Mellanox

October 13, 2025

tin tức mới nhất của công ty về Phân tích kiến trúc mạng lưới huấn luyện mô hình lớn AI của Mellanox
Cách Mạng Hóa Huấn Luyện Mô Hình AI: Kiến Trúc Mạng Mellanox InfiniBand cho Cụm GPU Quy Mô Lớn

SANTA CLARA, Calif. – Khi các mô hình trí tuệ nhân tạo phát triển theo cấp số nhân về quy mô và độ phức tạp, các kiến trúc mạng truyền thống đã trở thành nút thắt cổ chai chính trong cho . Công nghệ Đối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc của NVIDIA đang giải quyết trực tiếp thách thức này, cung cấp hiệu năng cao mạng GPU cơ sở hạ tầng cần thiết để huấn luyện các mô hình nền tảng của ngày mai mà không bị hạn chế về giao tiếp.

Nút thắt cổ chai mạng trong Huấn luyện AI Hiện đại

Sự phát triển từ hàng triệu lên hàng nghìn tỷ tham số trong các mô hình nền tảng đã thay đổi cơ bản các yêu cầu đối với cơ sở hạ tầng huấn luyện. Trong khi tính toán từng là yếu tố hạn chế, thì khối lượng công việc cho song song khổng lồ hiện nay bị giới hạn bởi khả năng đồng bộ hóa các gradient và tham số trên hàng nghìn GPU. Mạng Ethernet tiêu chuẩn đưa ra các giới hạn về độ trễ và băng thông đáng kể có thể làm giảm hiệu quả tổng thể của cụm xuống dưới 50% đối với các công việc huấn luyện quy mô lớn, khiến cho các giải pháp mạng GPU tiên tiến không chỉ có lợi mà còn cần thiết.

Mellanox InfiniBand: Ưu điểm về Kiến trúc cho Khối lượng công việc AI

Đối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc Mellanox InfiniBand

  • cung cấp một số lợi thế quan trọng khiến nó trở nên lý tưởng cho các môi trường huấn luyện AI quy mô lớn:Độ trễ cực thấp:
  • Với độ trễ đầu cuối dưới 600 nano giây, InfiniBand giảm thiểu chi phí giao tiếp gây khó khăn cho việc huấn luyện phân tán, đảm bảo GPU dành nhiều thời gian tính toán hơn và ít thời gian chờ đợi hơn.Mật độ băng thông cao:
  • NDR 400G InfiniBand cung cấp băng thông 400Gb/s trên mỗi cổng, cho phép trao đổi dữ liệu liền mạch giữa các GPU và giảm thời gian hoạt động all-reduce lên đến 70% so với các lựa chọn thay thế Ethernet.Tính toán trong mạng:
  • Công nghệ Giao thức Tổng hợp và Giảm thiểu Phân cấp Khả năng mở rộng (SHARP) thực hiện các hoạt động tổng hợp trong các bộ chuyển mạch mạng, giảm đáng kể khối lượng dữ liệu được truyền giữa các nút và tăng tốc các hoạt động tập thể.Định tuyến thích ứng:
Lựa chọn đường dẫn động đảm bảo việc sử dụng tối ưu băng thông khả dụng và ngăn ngừa tắc nghẽn mạng, duy trì hiệu suất nhất quán ngay cả trong thời gian giao tiếp cao điểm.

Tác động về hiệu suất có thể định lượng đối với hiệu quả huấn luyện

Sự khác biệt về hiệu suất giữa InfiniBand và các công nghệ thay thế ngày càng trở nên quan trọng khi quy mô mô hình và quy mô cụm tăng lên. Bảng sau đây thể hiện các số liệu hiệu suất so sánh để huấn luyện một mô hình 100 tỷ tham số trên một cụm 512 GPU: Số liệu hiệu suất Mellanox NDR InfiniBand 400G Ethernet với RoCE
Cải tiến Thời gian hoạt động All-Reduce 85 ms 210 ms
Nhanh hơn 59% Hiệu quả cụm 92% 64%
Sử dụng cao hơn 28% Thời gian huấn luyện (hoàn thành 90%) 14,2 ngày 21,8 ngày
Giảm 35% Hiệu quả năng lượng (PFLOPS/Watt) 18,4 12,1
Cải thiện 52%

Triển khai trong thế giới thực: Các tổ chức nghiên cứu AI hàng đầuĐối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc Mellanox InfiniBand cho huấn luyện mô hình AI

được chứng minh bằng việc áp dụng nó tại các tổ chức nghiên cứu AI hàng đầu và các nhà cung cấp dịch vụ đám mây. Các công ty công nghệ lớn đã báo cáo đạt được hiệu quả mở rộng trên 90% khi huấn luyện các mô hình ngôn ngữ lớn trên các cụm vượt quá 10.000 GPU được kết nối với công nghệ InfiniBand. Mức hiệu suất này cho phép các nhà nghiên cứu lặp lại nhanh hơn và huấn luyện các mô hình lớn hơn so với trước đây, đẩy nhanh tốc độ đổi mới AI.

Cơ sở hạ tầng AI trong tương laiĐối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc Mellanox InfiniBand

đã và đang phát triển để hỗ trợ 800G trở lên, đảm bảo rằng cơ sở hạ tầng mạng sẽ không trở thành yếu tố hạn chế trong các tiến bộ AI trong tương lai. Hỗ trợ vốn có của kiến trúc cho việc tính toán trong mạng cũng cung cấp một con đường để giảm tải các hoạt động tập thể tinh vi hơn trong tương lai.

Kết luận: Mạng như một khoản đầu tư chiến lược vào AIĐối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc Mellanox InfiniBand