Phân tích kiến trúc mạng Mellanox hỗ trợ đào tạo mô hình lớn AI
October 5, 2025
Ngày:Ngày 18 tháng 11 năm 2023
Khi các mô hình trí tuệ nhân tạo phát triển theo cấp số nhân về kích thước và độ phức tạp, cấu trúc mạng kết nối hàng ngàn GPU đã trở thành yếu tố quyết định hiệu quả đào tạo.Mellanox InfiniBandcông nghệ đã nổi lên như là xương sống cơ bản cho các cụm siêu máy tính AI hiện đại, được thiết kế đặc biệt để vượt qua các nút thắt giao tiếp gây bệnh quy mô lớnĐào tạo mô hình AI. Bài viết này giải quyết các đổi mới kiến trúc làm cho InfiniBand trở thành tiêu chuẩn thực tế để tăng tốc khối lượng công việc AI đòi hỏi khắt khe nhất thế giới.
Hiện đạiĐào tạo mô hình AI, chẳng hạn như đối với mô hình ngôn ngữ lớn (LLM), dựa trên các chiến lược song song dữ liệu, trong đó các tham số mô hình được đồng bộ hóa qua hàng ngàn GPU sau khi xử lý mỗi mini-batch dữ liệu.Thời gian dành cho giai đoạn đồng bộ hóa này, được gọi là tất cả giảm, là hoàn toàn trên.Mạng GPU, chi phí giao tiếp này có thể tiêu thụ hơn 50% tổng chu kỳ đào tạo, làm giảm đáng kể việc sử dụng GPU tổng thể và kéo dài thời gian để hiểu từ vài tuần đến vài tháng.Mạng không còn là một đường ống dữ liệu đơn thuần; nó là một thành phần tính toán cốt lõi.
Mellanox InfiniBandgiải quyết nút thắt này trực tiếp với một bộ động cơ gia tốc dựa trên phần cứng biến mạng từ một người tham gia thụ động thành một tài sản tính toán tích cực.
- SHARP (Scalable Hierarchical Aggregation and Reduction Protocol):Công nghệ mang tính cách mạng này thực hiện các hoạt động tổng hợp (ví dụ: tổng, trung bình) trực tiếp trong các công tắc InfiniBand.SHARP làm giảm dữ liệu trong mạng lưới, giảm đáng kể khối lượng dữ liệu được chuyển và thời gian cần thiết cho việc đồng bộ hóa.
- Đường dẫn thích nghi và kiểm soát tắc nghẽn:Khả năng định tuyến năng động của InfiniBand tự động điều khiển giao thông xung quanh các điểm nóng đông đúc,đảm bảo sử dụng thống nhất cấu trúc mạng và ngăn chặn bất kỳ liên kết nào trở thành một nút thắt trong các giai đoạn liên lạc tất cả mọi người.
- Ultra-Low Latency và High Bandwidth:Với độ trễ từ đầu đến cuối dưới 600 nanosecond và hỗ trợ 400 Gb / s trở lên,Mellanox InfiniBandcung cấp tốc độ thô cần thiết cho trao đổi tham số gần thời gian thực giữa GPU.
Những lợi thế kiến trúc của InfiniBand được dịch trực tiếp thành kết quả kinh doanh và nghiên cứu vượt trội cho các doanh nghiệp chạy khối lượng công việc AI quy mô lớn.
| Phương pháp đo | Sản phẩm Ethernet chuẩn | Vải Mellanox InfiniBand | Cải thiện |
|---|---|---|---|
| Sử dụng GPU (trong đào tạo quy mô lớn) | 40-60% | 90-95% | >50% tăng |
| Thời gian để đào tạo mô hình (ví dụ, tham số 1B LLM) | 30 ngày | 18 ngày | Giảm 40% |
| Phạm vi băng thông hiệu quả cho All-Reduce | ~120 Gb/s | ~380 Gb/s | 3 lần sử dụng cao hơn |
| Tiêu thụ năng lượng cho mỗi công việc đào tạo | 1.0x (Bản gốc) | ~0.7x | Giảm 30% |
Những số liệu này cho thấy rằng mộtMạng GPUChiến lược không phải là một thứ xa xỉ mà là một điều cần thiết để đạt được ROI khả thi trên các khoản đầu tư cụm AI trị giá hàng triệu đô la.
Thời đại thiết kế trung tâm dữ liệu chung đang kết thúc cho nghiên cứu AI.Đào tạo mô hình AIđòi hỏi một cách tiếp cận đồng thiết kế nơi sức mạnh tính toán của GPU được phù hợp với các mạng thông minh, tăng tốc củaMellanox InfiniBandBằng cách giảm thiểu chi phí giao tiếp và tối đa hóa việc sử dụng GPU, kiến trúc InfiniBand là chìa khóa để mở khóa các đổi mới nhanh hơn, giảm chi phí đào tạo,và đạt được quy mô trước đây không thể của AINó là nền tảng không thể thiếu cho thế hệ đột phá AI tiếp theo.

