Nvidia BlueField-4 STX: Mengatasi Kemacetan Penyimpanan AI

23

Nvidia telah meluncurkan BlueField-4 STX, arsitektur referensi baru yang dirancang untuk mengatasi keterbatasan kinerja penting dalam kecerdasan buatan: kecepatan agen AI dalam mengakses dan memproses data. Masalah intinya bukanlah model AI itu sendiri, namun ketidakmampuan sistem penyimpanan tradisional untuk memenuhi tuntutan inferensi modern. Hambatan ini berdampak pada kemampuan AI untuk mempertahankan “memori kerja” yang koheren selama tugas-tugas kompleks, panggilan alat, dan proses penalaran multi-langkah.

Masalah pada Penyimpanan Saat Ini

Model bahasa besar (LLM) mengandalkan cache nilai kunci (KV) untuk menyimpan perhitungan perantara, memungkinkan mereka menghindari penghitungan ulang informasi yang sama berulang kali. Saat agen AI menangani konteks yang lebih panjang dan tugas yang lebih kompleks, cache ini bertambah secara eksponensial. Ketika cache harus mengakses penyimpanan tradisional yang lambat, kecepatan inferensi menurun, dan penggunaan GPU menurun. Ini bukan masalah teoritis: kinerja AI secara langsung dibatasi oleh seberapa cepat AI dapat mengambil data yang diproses sebelumnya.

BlueField-4 STX: Lapisan Memori Konteks

Solusi Nvidia bukanlah produk yang mereka jual secara langsung, melainkan desain referensi untuk mitra penyimpanan. BlueField-4 STX menyisipkan “lapisan memori konteks” khusus antara GPU dan penyimpanan konvensional. Arsitekturnya menggabungkan CPU Vera Nvidia dengan ConnectX-9 SuperNIC, berjalan pada jaringan Ethernet Spectrum-X dan dapat diprogram melalui platform perangkat lunak DOCA Nvidia. Tujuannya sederhana: menjaga cache KV dapat diakses pada kecepatan yang sesuai dengan pemrosesan GPU. Implementasi pertama adalah platform penyimpanan memori konteks CMX, yang memperluas memori GPU dengan lapisan performa tinggi untuk menyimpan dan mengambil data cache KV.

Ekosistem & Ketersediaan Mitra

Nvidia mendistribusikan arsitektur referensi ini kepada mitra penyimpanannya untuk membangun infrastruktur asli AI. Perusahaan telah mendapatkan komitmen dari pemain besar termasuk Cloudian, Dell Technologies, HPE, IBM, NetApp, VAST Data, dan WEKA. Penyedia cloud seperti CoreWeave, Mistral AI, dan Oracle Cloud Infrastructure juga telah berkomitmen untuk mengadopsi STX untuk penyimpanan memori konteks.

Platform berbasis STX diperkirakan akan tersedia dari mitra pada paruh kedua tahun 2026. Kombinasi perusahaan penyimpanan lama dan penyedia cloud asli AI menandakan niat Nvidia untuk memposisikan STX sebagai standar baru untuk infrastruktur AI.

Peningkatan Kinerja di Dunia Nyata

IBM telah menunjukkan dampak dari pendekatan ini. Storage Scale System 6000 mereka, yang disertifikasi pada platform Nvidia DGX, telah menunjukkan peningkatan signifikan dalam siklus penyegaran data untuk beban kerja analitik terstruktur. Dalam pembuktian konsep dengan Nestlé, penyegaran data di 186 negara dan 44 tabel berkurang dari 15 menit menjadi hanya tiga menit, menghasilkan penghematan biaya sebesar 83% dan peningkatan kinerja harga sebesar 30x. Meskipun contoh ini berfokus pada data terstruktur, contoh ini menggambarkan poin yang lebih luas: lapisan penyimpanan sering kali menjadi kendala utama dalam penerapan AI di perusahaan.

Mengapa Ini Penting

Peralihan ke penyimpanan yang dioptimalkan konteks sangat penting karena penyimpanan tujuan umum tidak dirancang untuk persyaratan latensi beban kerja AI agen. Seiring dengan semakin terintegrasinya AI ke dalam operasi perusahaan, lapisan penyimpanan akan menjadi keputusan infrastruktur kelas satu, bukan hanya sekedar mempertimbangkan pengadaan GPU. Nvidia mengklaim STX memberikan throughput token 5x, efisiensi energi 4x, dan kecepatan penyerapan data 2x dibandingkan dengan penyimpanan berbasis CPU tradisional, meskipun konfigurasi dasar spesifik untuk pengukuran ini masih belum ditentukan.

Kesimpulannya, BlueField-4 STX dari Nvidia mewakili perubahan mendasar dalam cara perusahaan mendekati infrastruktur AI. Dengan mengatasi hambatan penyimpanan, perusahaan membuka jalan bagi penerapan AI yang lebih cepat, efisien, dan terukur di berbagai industri.