NVIDIA Mellanox MMA4Z00-NS Trung tâm dữ liệu Mô-đun quang học Giải pháp kỹ thuật

April 8, 2026

NVIDIA Mellanox MMA4Z00-NS Trung tâm dữ liệu Mô-đun quang học Giải pháp kỹ thuật

Giải pháp kỹ thuật này được thiết kế cho các kiến ​​trúc sư mạng, kỹ sư tiền bán hàng và người quản lý vận hành. Nó tập trung vàoNVIDIA Mellanox MMA4Z00-NSmô-đun quang trung tâm dữ liệu, giải quyết thách thức trong thế giới thực trong việc cân bằng băng thông cao với phạm vi tiếp cận hạn chế trên các liên kết sợi quang đa mode nội bộ và xuyên khuôn viên trường. Các phần sau bao gồm thiết kế kiến ​​trúc, công nghệ chính, mô hình triển khai và các phương pháp vận hành tốt nhất.

1. Phân tích bối cảnh và yêu cầu của dự án

Các cụm đào tạo AI hiện đại và môi trường HPC tạo ra lưu lượng truy cập đông-tây chưa từng có. Một nhóm AI cỡ trung bình điển hình có thể yêu cầu kết nối 800G giữa các máy chủ GPU trong cùng một giá, đồng thời cần liên kết tổng hợp 400G đến một đảo lưu trữ nằm cách đó 200–300 mét trong một tòa nhà hoặc phòng dữ liệu khác. Xung đột cốt lõi phát sinh từ những hạn chế của lớp vật lý: sợi đa mode OM4 tiêu chuẩn chỉ hỗ trợ 800G (thông qua 8 × 100G PAM4) trong phạm vi khoảng 50–70 mét, còn rất xa so với yêu cầu giữa các trường. Việc thay thế cơ sở hạ tầng đa chế độ hiện có bằng cáp quang đơn chế độ thường rất tốn kém và gây gián đoạn hoạt động.

Các yêu cầu chính được hầu hết kiến ​​trúc sư xác định bao gồm: (a) duy trì băng thông 800G cho các kết nối GPU-to-switch trong phạm vi ngắn, (b) mở rộng phạm vi tiếp cận lên hơn 200 mét bằng cách sử dụng sợi OM4 hiện có cho các liên kết xuyên trường, (c) giảm thiểu các loại mô-đun để giảm độ phức tạp tiết kiệm và (d) cung cấp khả năng quản lý và chẩn đoán thống nhất. cácMMA4Z00-NStrực tiếp giải quyết tất cả bốn yêu cầu thông qua khả năng chế độ kép của nó.

2. Thiết kế kiến ​​trúc hệ thống và mạng tổng thể

Kiến trúc được đề xuất tuân theo cấu trúc liên kết cột sống lá hai tầng với thiết kế lớp vật lý lai. Trong mỗi giá, các nút tính toán GPU kết nối với các switch lá bằng cách sử dụngBộ thu phát MMA4Z00-NS 800G OSFP SR8ở chế độ 800G đầy đủ trên sợi OM4 (<50m). Đối với các liên kết xuyên khuôn viên trường giữa các thiết bị chuyển mạch lá ở Tòa nhà A và các thiết bị chuyển mạch cột sống/lưu trữ ở Tòa nhà B (cách nhau 200–300m), tương tựNVIDIA Mellanox MMA4Z00-NScác mô-đun được cấu hình lại thànhMMA4Z00-NS 2x400G InfiniBand/Ethernetchế độ đột phá. Điều này cho phép một sợi MPO-16 duy nhất mang hai tín hiệu 400G độc lập, tăng gấp đôi phạm vi tiếp cận một cách hiệu quả trong khi vẫn duy trì băng thông trên mỗi liên kết.

  • Miền nội bộ:Chế độ 800G SR8, làn đường PAM4 lên tới 8×100G, độ trễ dưới 90ns.
  • Tên miền liên trường:Chế độ đột phá 2×400G, mỗi kênh 400G hoạt động với độ phân tán phương thức thoải mái, mở rộng phạm vi tiếp cận hiệu quả lên 200–300m trên OM4.
  • Vải thống nhất:Cả InfiniBand (dành cho cụm GPU) và Ethernet (dành cho lưu trữ/quản lý) đều được hỗ trợ mà không cần thay đổi phần cứng.

Kiến trúc loại bỏ sự cần thiết của các mô-đun đường dài riêng biệt hoặc chuyển đổi sợi quang đơn mode. Một loại mô-đun duy nhất phục vụ cả hai chế độ khoảng cách, đơn giản hóa việc kiểm kê và tiết kiệm.

3. Vai trò & Các tính năng chính của NVIDIA Mellanox MMA4Z00-NS

cácMMA4Z00-NSđóng vai trò là cầu nối quang giữa các miền 800G tầm ngắn và các miền 2×400G mở rộng. TheoThông số kỹ thuật MMA4Z00-NS, quang học song song dựa trên VCSEL và DSP tiên tiến của nó cung cấp các khả năng quan trọng:

  • Hoạt động ở chế độ kép, tốc độ kép:Có thể lựa chọn phần mềm giữa đột phá 800G SR8 và 2×400G mà không cần cấu hình lại phần cứng.
  • Ngân sách liên kết nâng cao:Khi hoạt động ở mức 400G mỗi kênh, độ nhạy của máy thu cải thiện khoảng 3dB so với chế độ 800G, chuyển trực tiếp sang phạm vi tiếp cận dài hơn trên cùng một sợi OM4.
  • Thuyết bất khả tri về giao thức:Hỗ trợ đầy đủ cả InfiniBand và Ethernet, được xác thực bằng các bộ chuyển mạch NVIDIA Quantum-2 và Spectrum-4.
  • Chẩn đoán từ xa:Giám sát thời gian thực về công suất quang, nhiệt độ, điện áp và biên độ liên kết thông qua các giao diện quản lý OSFP tiêu chuẩn.

Đối với các kiến ​​trúc sư xem xétBảng dữ liệu MMA4Z00-NS, điểm đáng chú ý là mô-đun đơn này thay thế hai loại sản phẩm riêng biệt (800G SR8 + 400G FR4 hoặc mô-đun hai chiều), giảm cả chi phí vốn và hoạt động.

4. Đề xuất triển khai và mở rộng quy mô (với cấu trúc liên kết điển hình)

Mô tả cấu trúc liên kết điển hình:Hai phòng dữ liệu (A và B) cách nhau 250 mét cáp quang đa mode OM4 tối. Hội trường A chứa 16 giá GPU, mỗi giá có 8 nút tính toán và 2 công tắc lá. Hội trường B chứa mảng lưu trữ và công tắc cột sống. Mỗi công tắc lá ở Hội trường A đều được trang bịMMA4Z00-NSmô-đun: cổng 1-8 được định cấu hình là 800G SR8 cho kết nối nội bộ giá đỡ; các cổng 9-12 được định cấu hình là đột phá 2×400G cho các đường liên kết lên giữa các trường với Hội trường B. Loại mô-đun giống nhau được sử dụng ở cả hai đầu.

Các bước triển khai:

  • Bước 1: Xác thựcTương thích MMA4Z00-NStrạng thái với các thiết bị chuyển mạch hiện có (phiên bản phần sụn và hỗ trợ lồng OSFP).
  • Bước 2: Cài đặt vật lý các mô-đun và cáp trung kế MPO-16. Không cần thay đổi cực cho chế độ đột phá.
  • Bước 3: Định cấu hình tốc độ và chế độ cổng thông qua switch CLI hoặc GUI quản lý — đặt các cổng tầm ngắn thành 800G SR8, các cổng liên trường thành đột phá 2×400G.
  • Bước 4: Chạy xác minh ngân sách liên kết quang bằng cách sử dụng chẩn đoán tích hợp. cácGiải pháp thu phát MMA4Z00-NS 800G OSFP SR8cung cấp nguồn Rx trên mỗi làn và BER trước FEC.

Chia tỷ lệ:Khi cụm AI phát triển, các mô-đun bổ sung sẽ được thêm vào song song. Bởi vì giống nhauMMA4Z00-NShoạt động cho cả hai vai trò, việc mở rộng quy mô không yêu cầu dự báo sự kết hợp giữa các liên kết ngắn và liên kết dài — bất kỳ mô-đun nào cũng có thể được chỉ định cho một trong hai vai trò tại thời điểm triển khai.

Kịch bản triển khai Chế độ mô-đun Khoảng cách tối đa (OM4) Trường hợp sử dụng
Trong giá/cùng hàng 800G SR8 50m (70m với OM4 cao cấp) Chuyển đổi GPU sang lá
Xuyên khuôn viên / liên tòa nhà Đột phá 2 × 400G 200-300m Lá đến cột sống / lưu trữ

5. Vận hành, Giám sát, Khắc phục sự cố & Tối ưu hóa

cácMMA4Z00-NStích hợp với các ngăn xếp đo từ xa của trung tâm dữ liệu tiêu chuẩn. Thực tiễn hoạt động chính bao gồm:

  • Link theo dõi sức khỏe:Thăm dò công suất quang Tx/Rx trên mỗi làn, dòng điện phân cực và nhiệt độ thông qua SNMP hoặc Redfish. Công suất Rx danh nghĩa phải nằm trong khoảng -4dBm đến +2dBm đối với chế độ 800G và thấp đến -7dBm đối với chế độ 2×400G nhờ độ nhạy thoải mái.
  • Theo dõi FEC và BER:Mô-đun báo cáo tỷ lệ lỗi bit trước FEC. Đối với các liên kết dài 2×400G, BER trước FEC từ 1e-8 trở xuống được coi là lành mạnh.
  • Khắc phục sự cố thường gặp:Nếu liên kết giữa các trường không đào tạo được, hãy xác minh rằng cả hai đầu đều được định cấu hình cho chế độ đột phá (không phải 800G). Sử dụngBảng dữ liệu MMA4Z00-NShướng dẫn phân cực cho cáp MPO-16 - một số loại phân cực (ví dụ: Loại B) yêu cầu kết nối cụ thể.
  • Mẹo tối ưu hóa:Đối với các liên kết ở khoảng cách gần 300m, hãy giảm nhiệt độ môi trường xung quanh gần các lồng thu phát để cải thiện tỷ lệ tín hiệu trên nhiễu. Mỗi lần giảm 10°C có thể cải thiện hiệu suất VCSEL khoảng 5%.

Để quản lý việc mua sắm và vòng đời, các nhóm nên theo dõiGiá MMA4Z00-NSxu hướng và dự trữ theo tỷ lệ dự phòng là 1:20 (một dự phòng trên 20 dự trữ được triển khai). Với tính linh hoạt ở chế độ kép của mô-đun, cùng một thiết bị dự phòng có thể thay thế thiết bị bị hỏng ở các vị trí tầm ngắn hoặc tầm xa.

6. Đánh giá tóm tắt và giá trị

cácNVIDIA Mellanox MMA4Z00-NSmang đến một đề xuất giá trị độc đáo: một mô-đun quang học mở rộng cả các liên kết trong khuôn viên trường có phạm vi tiếp cận ngắn và khoảng cách mở rộng băng thông cao mà không yêu cầu thay đổi nhà máy cáp quang. Dành cho các kiến ​​trúc sư và nhà quản lý CNTT đánh giáCần bán MMA4Z00-NShoặc yêu cầu mẫu, điểm chính là:

  • Giảm CapEx:Loại bỏ các mô-đun đường dài 400G riêng biệt, giảm mức tiêu thụ quang từ 30-40% trong các thiết kế có khoảng cách hỗn hợp.
  • Đơn giản hóa OpEx:SKU duy nhất dành cho hàng tồn kho dự phòng, chẩn đoán thống nhất và hệ thống cáp nhất quán.
  • Chứng minh tương lai:cácGiải pháp thu phát MMA4Z00-NS 800G OSFP SR8hỗ trợ cả cụm 800G ngày nay và vải 2×400G của ngày mai.
  • Tính linh hoạt trong vận hành:Các chế độ có thể lựa chọn bằng phần mềm cho phép cân bằng lại băng thông so với khoảng cách mà không cần hoán đổi phần cứng.