Giải pháp tăng tốc đào tạo AI: Tích hợp Mellanox DPU và GPU Cluster
September 28, 2025
Khi các mô hình trí tuệ nhân tạo phát triển theo cấp số nhân về kích thước và độ phức tạp, kiến trúc trung tâm dữ liệu truyền thống đang đạt đến giới hạn của họ.Đào tạo AIđã làm cho hiệu quảMạng GPUKhông chỉ là một tối ưu hóa mà là một yêu cầu cơ bản.Mellanox DPU(Đơn vị xử lý dữ liệu) trong các cụm GPU giải quyết các nút thắt quan trọng, giảm chi phí trên CPU của máy chủ và mở ra mức độ mở rộng và hiệu quả mới cho khối lượng công việc AI quy mô lớn.
Thời đại mô hình tỷ tham số đã thiết lập vững chắc cụm GPU là động cơ của AI hiện đại. Tuy nhiên, khi các cụm mở rộng đến hàng ngàn GPU, một vấn đề mới xuất hiện:CPU của máy chủ máy chủ trở nên quá tải với chuyển động dữ liệu, lập kế hoạch, và các nhiệm vụ truyền thông. chi phí này, bao gồm mạng, lưu trữ I / O và giao thức bảo mật,có thể tiêu thụ hơn 30% của các chu kỳ CPU của máy chủ mà là rất cần thiết cho quá trình đào tạo AI thực tếSự không hiệu quả này trực tiếp làm tăng thời gian đào tạo và tổng chi phí sở hữu (TCO).
Đường tắc chính trong quy mô lớnĐào tạo AIkhông còn chỉ là FLOPS thô; đó là sự không hiệu quả hệ thống trong đường ống dẫn dữ liệu.
- CPU Hungry:Các CPU máy chủ bị mắc kẹt bởi việc quản lý các ngăn xếp mạng (TCP / IP), trình điều khiển lưu trữ và ảo hóa, khiến ít tài nguyên hơn cho khung AI.
- Các nút thắt I/O:Di chuyển các bộ dữ liệu lớn từ bộ nhớ lưu trữ sang bộ nhớ GPU tạo ra tắc nghẽn trên bus và mạng PCIe, dẫn đến thời gian không hoạt động của GPU.
- Chi phí bảo mật:Trong môi trường đa người thuê, việc áp dụng các chính sách mã hóa và bảo mật sẽ gây thêm áp lực cho CPU chủ.
- Không hiệu quảMạng GPU:Các hoạt động giao tiếp tập thể (như All-Reduce) được xử lý trong phần mềm, tạo ra độ trễ và căng thẳng làm chậm việc đào tạo đồng bộ.
Những thách thức này tạo ra một kịch bản mà GPU đắt tiền bị bỏ lại chờ dữ liệu, làm giảm đáng kể việc sử dụng tổng thể và ROI của cơ sở hạ tầng AI.
CácMellanox DPU(nay là một phần của dòng sản phẩm BlueField của NVIDIA) là một bộ vi xử lý mang tính cách mạng được thiết kế đặc biệt để giải quyết các nút thắt cơ sở hạ tầng này.Nó không chỉ đơn thuần là một thẻ giao diện mạng (NIC) mà là một hệ thống trên chip (SoC) có thể lập trình đầy đủ bao gồm lõi Arm mạnh mẽ và động cơ gia tốc chuyên dụng. Bằng cách triển khai DPU trong mỗi máy chủ, các tổ chức có thể tạo ra một tầng cơ sở hạ tầng tăng tốc phần cứng.
- Tải tải cơ sở hạ tầng:CácMellanox DPUTải tải toàn bộ mạng, lưu trữ và bộ đệm bảo mật từ CPU chủ. Điều này bao gồm TCP / IP, NVMe over Fabrics (NVMe-oF), mã hóa và các chức năng tường lửa.Điều này "tự do" lõi CPU độc quyền cho ứng dụng AI.
- Truyền thông tăng tốc:DPU có tính năng truy cập bộ nhớ trực tiếp từ xa (RDMA) được tải xuống phần cứng, cho phép GPU truy cập trực tiếp bộ nhớ của các GPU khác trên mạng với độ trễ cực thấp,một nền tảng của hiệu suất caoMạng GPU.
- Tăng khả năng mở rộng:Với CPU máy chủ được giải phóng khỏi các nhiệm vụ cơ sở hạ tầng, việc mở rộng quy mô một cụm không dẫn đến sự gia tăng tuyến tính về chi phí CPU.Điều này cho phép mở rộng hiệu quả và dự đoán hơn đến số lượng nút lớn.
- Bảo mật không tin tưởng:DPU cho phép mô hình bảo mật "không tin cậy" bằng cách cung cấp phần cứng tách biệt gốc tin cậy, quản lý khóa và khả năng chạy các ứng dụng bảo mật trong một môi trường tách biệt trên chính DPU,tách biệt với vật chủ.
Sự hội nhập củaMellanox DPUmang lại sự cải thiện ngay lập tức và có thể đo lường trên các chỉ số hiệu suất chính.
| Phương pháp đo | Máy chủ truyền thống (CPU-Centric) | Máy chủ với Mellanox DPU | Cải thiện |
|---|---|---|---|
| Các lõi CPU có sẵn cho AI | ~70% | > 95% | ~ 36% Tăng |
| All-Reduce Latency (256 GPU) | ~ 500 μs | ~180 μs | Giảm 64% |
| Lượng lưu trữ I/O | ~12 GB/s | ~40 GB/s | Tăng 233% |
| Tổng thời gian đào tạo (BERT-Large) | ~60 giờ | ~ 42 giờ | Giảm 30% |
Những lợi ích hiệu suất này được chuyển trực tiếp sang giá trị kinh doanh: thời gian mô hình nhanh hơn, chi phí điện toán đám mây / thấp hơn,và khả năng giải quyết các vấn đề phức tạp hơn trong cùng một dấu chân cơ sở hạ tầng.
Hành trình của AI là rõ ràng: các mô hình sẽ tiếp tục phát triển, và các cụm sẽ trở nên phân tán hơn.Cách tiếp cận truyền thống ném nhiều CPU vào vấn đề cơ sở hạ tầng là không bền vững.Mellanox DPUđại diện cho một sự thay đổi cơ bản về kiến trúc, tạo ra một mặt phẳng cơ sở hạ tầng chuyên dụng, tăng tốc cho phép các cụm GPU đạt được hiệu suất và hiệu quả chưa từng có.Nó là một thành phần quan trọng cho bất kỳ tổ chức nào muốn duy trì lợi thế cạnh tranh trong nghiên cứu và phát triển AI.

