Sự bùng nổ của trí tuệ nhân tạo (AI), đặc biệt là các mô hình ngôn ngữ lớn (LLM), đã tạo ra một nhu cầu chưa từng có về hiệu suất tính toán và băng thông dữ liệu. Các “nhà máy AI” (AI factories) hiện đại được xây dựng để xử lý các mô hình có quy mô hàng nghìn tỷ tham số, đòi hỏi luồng dữ liệu khổng lồ phải được di chuyển liên tục và hiệu quả giữa các bộ xử lý đồ họa (GPU), bộ nhớ hệ thống, và các node máy chủ. Nhu cầu này đã vượt quá giới hạn của các kiến trúc hạ tầng truyền thống, dẫn đến các điểm nghẽn nghiêm trọng, làm giảm hiệu suất tổng thể của hệ thống.
Kỷ nguyên mới cho hạ tầng AI và HPC
Để giải quyết thách thức này, NVIDIA đã giới thiệu một giải pháp mang tính đột phá tại Computex 2025: NVIDIA ConnectX-8 SuperNIC Switch. Đây không chỉ là một card mạng (NIC) thông thường mà là một nền tảng kiến trúc tích hợp, được thiết kế để tái định hình cách các hệ thống GPU dựa trên PCIe hoạt động. Bằng cách tận dụng các cải tiến của giao thức kết nối PCIe Gen6, ConnectX-8 SuperNICs hứa hẹn sẽ mở ra một kỷ nguyên mới cho các trung tâm dữ liệu AI và tính toán hiệu năng cao (HPC), mang lại hiệu suất vượt trội, đơn giản hóa thiết kế và giảm đáng kể chi phí sở hữu tổng thể (TCO).
Kiến trúc nền tảng đột phá: Từ thiết kế truyền thống đến NVIDIA ConnectX-8 SuperNIC
Hạn chế của kiến trúc server PCIe truyền thống
Kiến trúc server đa GPU dựa trên PCIe truyền thống, đặc biệt là các hệ thống 8-GPU, thường có thiết kế phức tạp và rời rạc. Một cấu hình điển hình bao gồm hai CPU, tám GPU (ví dụ: NVIDIA L40) và một cụm gồm năm card mạng, trong đó có bốn NIC NVIDIA ConnectX-7 400G và một BlueField-3 DPU. Để đảm bảo giao tiếp giữa các GPU với nhau (GPU-to-GPU) và giữa GPU với mạng (GPU-to-networking), kiến trúc này yêu cầu hai đến bốn switch PCIe rời rạc.
Thiết kế này mang lại nhiều nhược điểm cố hữu. Các luồng dữ liệu quan trọng giữa các GPU hoặc giữa GPU và các NIC thường phải đi qua các switch PCIe rời rạc, hoặc thậm chí qua CPU và liên kết inter-socket giữa các CPU. Điều này tạo ra các điểm nghẽn về băng thông và độ trễ, giới hạn hiệu suất của toàn hệ thống. Hơn nữa, việc sử dụng nhiều thành phần rời rạc làm tăng đáng kể độ phức tạp của thiết kế bo mạch, yêu cầu hệ thống cáp phức tạp, và cuối cùng làm tăng chi phí sản xuất, tiêu thụ năng lượng và chi phí sở hữu tổng thể.
Giải pháp tích hợp đột phá của ConnectX-8 SuperNIC
NVIDIA ConnectX-8 SuperNIC Switch là một bước chuyển mình kiến trúc, thay thế thiết kế rời rạc bằng một nền tảng tích hợp cao. Sản phẩm này về cơ bản là một GPU backplane tích hợp sẵn kết nối mạng ConnectX-8. Cụ thể, nó là một bo mạch hỗ trợ 8-GPU, tích hợp một switch PCIe 6.0 48-lane và bốn giao diện mạng ConnectX-8 800Gb/s chuyên dụng.
Lợi ích cốt lõi của kiến trúc này nằm ở khả năng bỏ qua hoàn toàn CPU (CPU bypass). Các làn PCIe, switch và mạng tích hợp được thiết kế để tạo ra một kênh giao tiếp trực tiếp giữa GPU với GPU và giữa GPU với mạng, loại bỏ các điểm nghẽn do CPU và các liên kết inter-socket truyền thống gây ra. Điều này cải thiện đáng kể luồng dữ liệu, giảm độ trễ và tăng thông lượng, mang lại hiệu suất cao hơn cho các tác vụ cần giao tiếp liên tục và tốc độ cao giữa các GPU.
Sự tích hợp này không chỉ là một cải tiến về tốc độ mà là một sự tái cấu trúc căn bản đường đi của dữ liệu. Nguyên nhân chính của hiệu suất vượt trội là sự kết hợp của ba yếu tố: mạng 800Gb/s, switch PCIe Gen6 và khả năng bỏ qua CPU. Sự kết hợp này mang lại lợi ích về hiệu suất của các nền tảng cao cấp như DGX/HGX (sử dụng NVLink) cho các server PCIe tiêu chuẩn, giúp các doanh nghiệp không đủ điều kiện về chi phí hoặc hạ tầng để triển khai DGX vẫn có thể xây dựng các “AI factories” mạnh mẽ với TCO thấp hơn và khả năng mở rộng tốt hơn.
>>> Xem thêm: dell r660xs
Phân tích chuyên sâu về NVIDIA ConnectX-8 SuperNICs
Thông số kỹ thuật và tính năng nổi bật
NVIDIA ConnectX-8 SuperNICs được thiết kế để cung cấp hiệu suất mạng cực cao, đáp ứng nhu cầu của các mô hình AI quy mô lớn. Các thông số kỹ thuật cốt lõi của thiết bị này bao gồm:
- [font='Times New Roman', serif]Băng thông tối đa: Mỗi ConnectX-8 NIC cung cấp băng thông lên tới 800 gigabit mỗi giây (Gb/s), với tổng băng thông 3200 Gb/s trên toàn bộ SuperNIC.[/font]
- [font='Times New Roman', serif]Giao diện Host: Hỗ trợ giao diện PCIe Gen6 với tối đa 48 làn. Điều này cho phép các GPU tương thích PCIe 6.0 tận dụng tốc độ 800Gb/s, ngay cả khi nền tảng CPU host không hỗ trợ PCIe Gen6.[/font]
- [font='Times New Roman', serif]Chuẩn mạng hỗ trợ: Hỗ trợ cả InfiniBand (tối đa 800Gb/s XDR IB) và Ethernet (tối đa 2x400GbE).[/font]
- [font='Times New Roman', serif]Công nghệ tăng tốc In-Network Computing: ConnectX-8 tích hợp các công nghệ offloading mạnh mẽ, giải phóng CPU khỏi các tác vụ mạng và cải thiện hiệu suất.
[/font]- [font='Times New Roman', serif][font='Times New Roman', serif]RDMA (Remote Direct Memory Access) và RoCEv2: Cho phép truyền dữ liệu trực tiếp giữa bộ nhớ của các thiết bị (GPU) mà không cần can thiệp của CPU, giúp giảm đáng kể độ trễ và giải phóng tài nguyên CPU.[/font][/font]
- [font='Times New Roman', serif][font='Times New Roman', serif]GPUDirect RDMA và GPUDirect Storage: Công nghệ này cho phép GPU giao tiếp trực tiếp với các thiết bị mạng và lưu trữ, tối ưu hóa quá trình tiền xử lý và nạp dữ liệu.[/font][/font]
- [font='Times New Roman', serif][font='Times New Roman', serif]SHARP (Scalable Hierarchical Aggregation and Reduction Protocol): Một công nghệ In-Network Computing để tăng tốc các phép toán tập thể (collective operations) như AllReduce, rất quan trọng trong huấn luyện AI phân tán quy mô lớn.[/font][/font]
Bảng 2: Các Thông số Kỹ thuật Chi tiết của NVIDIA ConnectX-8 SuperNIC
Thông số Giá trị
Băng thông tối đa 800 Gb/s
Tổng băng thông 3200 Gb/s (tại 4 NIC)
Giao diện Host PCIe Gen6 x16, lên đến 48 làn
Chuẩn mạng hỗ trợ InfiniBand, Ethernet
Tốc độ InfiniBand 800/400/200/100 Gb/s
Tốc độ Ethernet 400/200/100/50/25 Gb/s
Tính năng nổi bật In-Network Computing, RDMA/RoCEv2, GPUDirect RDMA/Storage, SHARP
So sánh chi tiết với NVIDIA ConnectX-7
Điểm khác biệt dễ nhận thấy nhất giữa ConnectX-8 và ConnectX-7 là băng thông: ConnectX-8 cung cấp băng thông 800 Gb/s, gấp đôi so với 400 Gb/s của ConnectX-7. Tuy nhiên, sự khác biệt quan trọng hơn lại nằm ở vai trò kiến trúc của chúng trong hệ thống.
ConnectX-7 là một card mạng (NIC) hoặc bộ điều hợp kênh chủ (HCA) độc lập. Nó cần các thành phần rời rạc khác, đặc biệt là các switch PCIe, để tạo thành một hệ thống đa GPU hoàn chỉnh. Ngược lại, ConnectX-8 được thiết kế như một “SuperNIC Switch”. Điều này có nghĩa là nó tích hợp sẵn switch PCIe 6.0 trên cùng một bo mạch.
Sự tích hợp này cho phép ConnectX-8 đảm nhận một vai trò mới, không chỉ là giao diện mạng mà còn là trung tâm điều phối dữ liệu nội bộ hệ thống. Nó tạo ra một mạng lưới kết nối chặt chẽ giữa các GPU và các NIC, đơn giản hóa thiết kế tổng thể và tối ưu hóa luồng dữ liệu mà kiến trúc rời rạc của ConnectX-7 không thể đạt được.
>>> Xem thêm: dell r760xs
PCIe Gen6: Nền tảng kết nối tương lai cho AI
Tổng quan về PCIe Gen6
PCIe (Peripheral Component Interconnect Express) là giao diện kết nối tiêu chuẩn, đóng vai trò là xương sống của mọi hệ thống máy tính hiện đại. Nó kết nối các thành phần hiệu suất cao như GPU, NIC và ổ đĩa NVMe với CPU. Với sự ra đời của PCIe Gen6, tiêu chuẩn này tiếp tục truyền thống tăng gấp đôi băng thông so với thế hệ trước. Tốc độ truyền dữ liệu mỗi làn của PCIe 6.0 đạt 64 gigatransfers mỗi giây (GT/s). Đối với một liên kết x16, đây là cấu hình phổ biến cho card đồ họa và card mạng, băng thông của liên kết đạt 128 gigabytes mỗi giây (GB/s) theo một chiều, với tổng băng thông song công lên tới 256 GB/s.
Các đổi mới kỹ thuật đột phá
Việc tăng gấp đôi băng thông không chỉ là một thay đổi đơn lẻ mà là một chuỗi các đổi mới kỹ thuật liên kết chặt chẽ với nhau. Mỗi thay đổi được thực hiện để giải quyết thách thức do thay đổi trước đó tạo ra, tạo nên một chuỗi phát triển liền mạch và hiệu quả.
- [font='Times New Roman', serif]Mã hóa PAM4 Signaling: Thay vì tăng tần số đồng hồ như các thế hệ trước, PCIe Gen6 sử dụng kỹ thuật điều chế biên độ xung bốn mức (PAM4). Trong khi PCIe Gen5 sử dụng mã hóa NRZ với hai mức điện áp (đại diện cho bit 0 và 1), PAM4 sử dụng bốn mức điện áp khác nhau để mã hóa 2 bit dữ liệu trên mỗi chu kỳ xung nhịp (00, 01, 10, 11). Điều này cho phép gấp đôi băng thông mà không cần tăng tần số cơ bản của bus.[/font]
- [font='Times New Roman', serif]Sửa lỗi tiến (Forward Error Correction – FEC): Mặc dù PAM4 cho phép tăng băng thông, nó lại dễ bị nhiễu tín hiệu hơn do khoảng cách giữa các mức điện áp hẹp hơn. Điều này làm giảm tỷ lệ tín hiệu trên nhiễu (SNR) và tăng tỷ lệ lỗi bit. Để khắc phục, PCIe 6.0 giới thiệu cơ chế sửa lỗi tiến (FEC) để tự động phát hiện và sửa các lỗi nhỏ trong quá trình truyền dữ liệu mà không cần gửi lại toàn bộ gói tin. Cơ chế này được thiết kế để có độ trễ cực thấp, dưới 2 nanosecond, đảm bảo hiệu quả cho các ứng dụng có độ trễ nhạy cảm.[/font]
- [font='Times New Roman', serif]Chế độ FLIT (Flow Control Unit): Để FEC hoạt động hiệu quả, các gói dữ liệu cần có kích thước cố định. Do đó, PCIe 6.0 giới thiệu chế độ FLIT, thay thế các gói dữ liệu có kích thước thay đổi của các thế hệ trước. Chế độ này không chỉ hỗ trợ FEC mà còn mang lại nhiều lợi ích khác: nó đơn giản hóa việc quản lý dữ liệu ở tầng controller, loại bỏ overhead từ các cơ chế mã hóa cũ như 128b/130b và DLLP, từ đó cải thiện hiệu quả băng thông và giảm độ trễ một cách đáng kể.[/font]
Công ty cổ phần thương mại Máy Chủ Hà Nội
Trụ sở Hà Nội: Tầng 1,2,4 - Tòa nhà PmaxLand số 32 ngõ 133 Thái Hà - Q. Đống Đa
- Hotline: 0979 83 84 84
- Tel: 024 6296 6644
Chi nhánh HCM: Lầu 1- Tòa nhà 666/46/29 Đường 3/2- Phường 14 - Quận 10
- Hotline: 0945 92 96 96
- Tel: 028 2244 9399
- Email: kinhdoanhhn@maychuhanoi.vn