Giải pháp Mạng Điện toán Hiệu năng Cao (HPC): InfiniBand cho phép Đột phá Hiệu năng Siêu máy tính
September 27, 2025
Các lĩnh vực khoa học, kỹ thuật và trí tuệ nhân tạo đang được thúc đẩy bởi điện toán hiệu năng cao (HPC). Từ việc mô phỏng các mô hình khí hậu và khám phá các loại thuốc mới đến việc huấn luyện các mô hình AI tạo sinh khổng lồ, sự phức tạp và quy mô của các khối lượng công việc này đang tăng lên theo cấp số nhân. Sự gia tăng này tạo ra áp lực to lớn lên mạng siêu máy tính, vốn phải di chuyển các bộ dữ liệu khổng lồ một cách hiệu quả giữa hàng nghìn nút tính toán mà không trở thành nút thắt cổ chai. Kết nối liên thông không còn chỉ là một thành phần đường ống; nó là hệ thống thần kinh trung ương của siêu máy tính hiện đại.
Các kiến trúc mạng truyền thống thường không theo kịp nhu cầu của điện toán exascale và AI. Các kiến trúc sư và nhà nghiên cứu HPC phải đối mặt với một số thách thức liên tục:
- Độ nhạy về độ trễ: Các ứng dụng song song được liên kết chặt chẽ, sử dụng Giao diện Truyền thông Tin nhắn (MPI), rất nhạy cảm với độ trễ. Vài micro giây chậm trễ có thể làm chậm đáng kể thời gian giải quyết tổng thể.
- Thông lượng không thể đoán trước: Tình trạng tắc nghẽn mạng có thể gây ra hiệu suất thất thường, dẫn đến các nút tính toán không hoạt động trong khi chờ dữ liệu, lãng phí tài nguyên tính toán quý giá và tăng thời gian hoàn thành công việc.
- Các hoạt động tập thể không hiệu quả: Các hoạt động như giảm và rào cản liên quan đến nhiều nút có thể tiêu tốn một lượng lớn tài nguyên CPU của máy chủ, chuyển hướng các chu kỳ khỏi các tác vụ tính toán cốt lõi.
- Giới hạn khả năng mở rộng: Nhiều mạng gặp khó khăn trong việc duy trì hiệu suất và độ trễ nhất quán khi quy mô cụm tăng lên hàng chục nghìn nút, cản trở con đường đến exascale và hơn thế nữa.
NVIDIA Mellanox InfiniBand cung cấp một nền tảng mạng đầu-cuối được xây dựng có mục đích, được thiết kế đặc biệt để khắc phục những nút thắt cổ chai HPC. Nó không chỉ là một NIC; nó là một cấu trúc toàn diện giúp tăng tốc một cách thông minh việc di chuyển dữ liệu và tính toán.
- Điện toán trong Mạng (NVIDIA SHARP™): Đây là một tính năng mang tính cách mạng giúp InfiniBand khác biệt. Giao thức Tổng hợp và Giảm thiểu Phân cấp Khả năng mở rộng (SHARP) giảm tải các hoạt động tập thể (ví dụ: MPI Allreduce, Barrier) từ CPU sang mạng chuyển mạch. Điều này làm giảm đáng kể độ trễ và giải phóng tài nguyên CPU của máy chủ để tính toán ứng dụng.
- Truy cập bộ nhớ trực tiếp từ xa (RDMA): Mellanox InfiniBand có hỗ trợ RDMA gốc, cho phép dữ liệu được di chuyển trực tiếp từ bộ nhớ của một nút sang nút khác mà không liên quan đến CPU. Kỹ thuật "bỏ qua kernel" này là nền tảng để đạt được độ trễ cực thấp và băng thông cao.
- Định tuyến thích ứng và Kiểm soát tắc nghẽn: Cấu trúc định tuyến động lưu lượng xung quanh các điểm nóng, đảm bảo việc sử dụng đồng đều mạng và ngăn chặn tình trạng tắc nghẽn trước khi nó ảnh hưởng đến hiệu suất ứng dụng. Điều này dẫn đến hiệu suất có thể dự đoán và nhất quán.
- Tích hợp GPU liền mạch (GPUDirect®): Các công nghệ như GPUDirect RDMA cho phép dữ liệu truyền trực tiếp giữa bộ nhớ GPU của các máy chủ khác nhau trên cấu trúc InfiniBand, điều này rất quan trọng để tăng tốc khối lượng công việc đào tạo AI và tính toán khoa học đa GPU và đa nút.
Việc triển khai Mellanox InfiniBand tại các trung tâm siêu máy tính và các tổ chức nghiên cứu hàng đầu đã mang lại kết quả đáng kể, có thể đo lường được:
| Số liệu | Cải thiện với Mellanox InfiniBand | Tác động đến Khối lượng công việc HPC |
|---|---|---|
| Hiệu suất ứng dụng | Nhanh hơn tới 2,5 lần | Giảm thời gian giải quyết cho các mô phỏng phức tạp và các công việc đào tạo AI. |
| Độ trễ | Dưới 1 micro giây đầu cuối | Hầu như loại bỏ độ trễ giao tiếp cho các ứng dụng MPI. |
| Mức sử dụng CPU | Giảm tới 30% chi phí CPU | Giải phóng hàng triệu giờ lõi CPU để tính toán thay vì giao tiếp. |
| Khả năng mở rộng | Được hỗ trợ trong các cụm có hơn 10.000 nút | Cung cấp một con đường đã được chứng minh để triển khai điện toán exascale. |
| Mức sử dụng cấu trúc | Hiệu quả trên 90% | Tối đa hóa lợi tức đầu tư cơ sở hạ tầng. |
Mellanox InfiniBand đã tự khẳng định mình là tiêu chuẩn vàng cho mạng siêu máy tính, cung cấp hiệu suất, khả năng mở rộng và trí thông minh cần thiết cho các khối lượng công việc HPC và AI đòi hỏi khắt khe nhất trên thế giới. Bằng cách giải quyết các nút thắt cổ chai mạng quan trọng thông qua các cải tiến như điện toán trong mạng, nó cho phép các nhà nghiên cứu và các nhà khoa học đạt được kết quả đột phá nhanh hơn. Nó không chỉ là một kết nối liên thông; nó là một bộ tăng tốc thiết yếu cho kiến thức và sự đổi mới của con người.

