Phân tích kiến trúc mạng lưới huấn luyện mô hình lớn AI của Mellanox
October 13, 2025
SANTA CLARA, Calif. – Khi các mô hình trí tuệ nhân tạo phát triển theo cấp số nhân về quy mô và độ phức tạp, các kiến trúc mạng truyền thống đã trở thành nút thắt cổ chai chính trong cho . Công nghệ Đối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc của NVIDIA đang giải quyết trực tiếp thách thức này, cung cấp hiệu năng cao mạng GPU cơ sở hạ tầng cần thiết để huấn luyện các mô hình nền tảng của ngày mai mà không bị hạn chế về giao tiếp.
Sự phát triển từ hàng triệu lên hàng nghìn tỷ tham số trong các mô hình nền tảng đã thay đổi cơ bản các yêu cầu đối với cơ sở hạ tầng huấn luyện. Trong khi tính toán từng là yếu tố hạn chế, thì khối lượng công việc cho song song khổng lồ hiện nay bị giới hạn bởi khả năng đồng bộ hóa các gradient và tham số trên hàng nghìn GPU. Mạng Ethernet tiêu chuẩn đưa ra các giới hạn về độ trễ và băng thông đáng kể có thể làm giảm hiệu quả tổng thể của cụm xuống dưới 50% đối với các công việc huấn luyện quy mô lớn, khiến cho các giải pháp mạng GPU tiên tiến không chỉ có lợi mà còn cần thiết.
Đối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc Mellanox InfiniBand
- cung cấp một số lợi thế quan trọng khiến nó trở nên lý tưởng cho các môi trường huấn luyện AI quy mô lớn:Độ trễ cực thấp:
- Với độ trễ đầu cuối dưới 600 nano giây, InfiniBand giảm thiểu chi phí giao tiếp gây khó khăn cho việc huấn luyện phân tán, đảm bảo GPU dành nhiều thời gian tính toán hơn và ít thời gian chờ đợi hơn.Mật độ băng thông cao:
- NDR 400G InfiniBand cung cấp băng thông 400Gb/s trên mỗi cổng, cho phép trao đổi dữ liệu liền mạch giữa các GPU và giảm thời gian hoạt động all-reduce lên đến 70% so với các lựa chọn thay thế Ethernet.Tính toán trong mạng:
- Công nghệ Giao thức Tổng hợp và Giảm thiểu Phân cấp Khả năng mở rộng (SHARP) thực hiện các hoạt động tổng hợp trong các bộ chuyển mạch mạng, giảm đáng kể khối lượng dữ liệu được truyền giữa các nút và tăng tốc các hoạt động tập thể.Định tuyến thích ứng:
Tác động về hiệu suất có thể định lượng đối với hiệu quả huấn luyện
| Sự khác biệt về hiệu suất giữa InfiniBand và các công nghệ thay thế ngày càng trở nên quan trọng khi quy mô mô hình và quy mô cụm tăng lên. Bảng sau đây thể hiện các số liệu hiệu suất so sánh để huấn luyện một mô hình 100 tỷ tham số trên một cụm 512 GPU: | Số liệu hiệu suất | Mellanox NDR InfiniBand | 400G Ethernet với RoCE |
|---|---|---|---|
| Cải tiến | Thời gian hoạt động All-Reduce | 85 ms | 210 ms |
| Nhanh hơn 59% | Hiệu quả cụm | 92% | 64% |
| Sử dụng cao hơn 28% | Thời gian huấn luyện (hoàn thành 90%) | 14,2 ngày | 21,8 ngày |
| Giảm 35% | Hiệu quả năng lượng (PFLOPS/Watt) | 18,4 | 12,1 |
Triển khai trong thế giới thực: Các tổ chức nghiên cứu AI hàng đầuĐối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc Mellanox InfiniBand cho huấn luyện mô hình AI
Cơ sở hạ tầng AI trong tương laiĐối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc Mellanox InfiniBand
Kết luận: Mạng như một khoản đầu tư chiến lược vào AIĐối với các tổ chức nghiêm túc về việc thúc đẩy sự phát triển của trí tuệ nhân tạo, việc đầu tư vào cơ sở hạ tầng mạng phù hợp cũng quan trọng như việc chọn GPU phù hợp. Kiến trúc Mellanox InfiniBand

