Sora Yazılım
Türkçe
Türkiye merkezli özel yazılım çözümleri

GPU Sunucu: Yapay Zeka ve Makine Öğrenmesi Donanım Rehberi

Sora Yazılım Ekibi

GPU sunucu nedir? GPU sunucu; dört ila sekiz veya daha fazla kurumsal GPU barındıran, çift CPU'lu, rack monte edilebilir ve ekipler arasında paylaşımlı kullanıma açık özel donanım platformlarıdır. Yapay zeka model eğitiminden çıkarım hizmetlerine kadar tüm kurumsal AI iş yüklerini kesintisiz çalıştırmak için tasarlanmışlardır.

GPU Sunucu Nedir?

GPU sunucu; rack montajlı, çift CPU'lu ve paylaşımlı kullanıma açık, dört ile sekiz veya daha fazla kurumsal sınıf GPU barındıran özel bilişim platformlarıdır. İş istasyonlarından farklı olarak sürekli çevrimiçi kalır ve API üzerinden birden fazla kullanıcıya eşzamanlı hizmet verir.

GPU sunucular, kurumsal AI ve makine öğrenmesi iş yüklerini merkezi ve paylaşımlı biçimde yürütmek üzere tasarlanmış donanım platformlarıdır. Tipik bir GPU sunucu; iki adet yüksek çekirdekli sunucu CPU'su (Intel Xeon veya AMD EPYC), 512 GB ile 6 TB arasında ECC bellekli RAM, dört ile sekiz adet H100, H200, A100 ya da L40S GPU ve yüksek hızlı NVMe depolama içerir.

İş istasyonları genellikle tek bir kullanıcının önündedir ve masaüstü formu nedeniyle GPU sayısı sınırlıdır. GPU sunucular ise 1U ile 8U arasında değişen rack boyutlarında gelir; veri merkezi ortamlarına uygun soğutma sistemlerine sahiptir ve uzaktan yönetim kartları (IPMI/BMC) aracılığıyla sürekli erişim imkânı sağlar. Bir ekibin GPU rezervasyonu yapması gerektiğinde, her zaman açık bir API uç noktasına ihtiyaç duyulduğunda ya da tek bir iş istasyonunun sağlayabileceğinden daha fazla video belleği gerektiğinde GPU sunucuya geçiş zamanı gelmiş demektir.

İş İstasyonundan Ne Zaman GPU Sunucuya Geçilir?

Ekibiniz GPU erişimini takvimle planlamak zorunda kalıyorsa, her zaman açık bir model API'sine ihtiyaç duyuyorsa ya da tek bir iş istasyonu GPU'sunun VRAM kapasitesini aşıyorsanız paylaşımlı GPU sunucu kurmanın zamanı gelmiştir.

Bireysel yapay zeka iş istasyonları araştırmacı başına ideal çözümler olabilir; ancak kurumsal ölçeğe geçildiğinde birkaç kritik sorun ortaya çıkar. Veri bilimcilerin büyük dil modeli ince ayarı için sıra beklediği durumlar, model API'sinin mesai dışında erişilemez olduğu senaryolar ve 80 GB VRAM'in yetmediği multi-modal model eğitimleri, paylaşımlı bir GPU sunucu platformuna geçişin kesin sinyalleridir. Yapay zeka iş istasyonu seçim kriterlerimiz tek kullanıcı ortamları için kapsamlı bir çerçeve sunar; ancak ekip büyüdüğünde altyapı da dönüşmelidir.

Geçiş kararını destekleyen diğer faktörler şunlardır: birden fazla projenin aynı GPU'ya ihtiyaç duyması, model dağıtım ortamının geliştirme ortamından farklı olması ve veri güvenliği politikalarının bulut GPU kullanımını kısıtlaması. Bu koşulların ikisi veya daha fazlası geçerliyse on-premise GPU sunucu yatırımı finansal ve operasyonel açıdan meşrulaşır.

Kurumsal GPU'lar: H100, H200, A100, L40S Karşılaştırması

H100 ve H200 yoğun model eğitimi için, A100 hem eğitim hem çıkarım için dengeli bir seçimdir. L40S ve A40, çıkarım ve fine-tuning iş yüklerinde daha iyi fiyat-performans dengesi sunar.

Kurumsal GPU seçimi, iş yükü tipine (eğitim vs. çıkarım), gereken VRAM miktarına ve bütçe kısıtlarına göre belirlenir. Aşağıdaki tablo mevcut nesil kurumsal GPU'ların temel parametrelerini karşılaştırmaktadır.

GPUVRAMBellek Bant GenişliğiTemel Kullanım AlanıSoğutma
NVIDIA H100 SXM580 GB HBM33,35 TB/sBüyük model eğitimi, HPCSXM (liquid-cooled uyumlu)
NVIDIA H200 SXM5141 GB HBM3e4,8 TB/sÇok büyük LLM eğitimi ve çıkarımıSXM (liquid-cooled uyumlu)
NVIDIA A100 PCIe/SXM80 GB HBM2e2,0 TB/sEğitim + çıkarım dengesiPCIe veya SXM
NVIDIA L40S PCIe48 GB GDDR6864 GB/sÇıkarım, ince ayar, görsel AIPCIe (hava soğutmalı)
NVIDIA A40 PCIe48 GB GDDR6696 GB/sÇıkarım, görsel işlemePCIe (hava soğutmalı)

H100 ve H200, NVLink 4.0 ile doğrudan GPU-GPU iletişim bant genişliği sağlayarak büyük dil modellerinin tensor paralel eğitimini destekler. A100, 2026 itibarıyla olgun ekosistemi ve geniş framework desteğiyle kurumsal veri merkezlerinde hâlâ yaygın kullanılmaktadır. L40S, özellikle çıkarım ağırlıklı işletmeler için toplam sahip olma maliyeti (TCO) açısından cazip bir alternatif sunar; GDDR6 belleği HBM'e kıyasla daha düşük birim maliyet anlamına gelir.

Çoklu GPU Mimarisi: PCIe, NVLink ve EPYC Altyapısı

Çoklu GPU mimarisi, GPU'ların birbirleriyle ve CPU ile nasıl iletişim kurduğunu belirler. NVLink GPU-GPU bant genişliğini PCIe'e göre katlar; AMD EPYC 9005 soket başına 160 PCIe 5.0 şeridiyle 8 GPU'yu tam x16 hızında çalıştırır.

GPU sunucuda performansı belirleyen en kritik parametrelerden biri, GPU'lar arasındaki ve GPU-CPU arasındaki veri yolu kapasitesidir. PCIe 5.0 tabanlı sistemlerde her GPU x16 şerit ile saniyede 64 GB/s çift yönlü bant genişliği alır. NVLink destekli H100 ve H200 GPU'lar ise GPU-GPU doğrudan iletişimde 900 GB/s (NVLink 4.0, 18 şerit) bant genişliğine ulaşır; bu fark tensor paralel ve pipeline paralel eğitimde belirleyicidir. Sunucu işlemcisi seçimi (Xeon, EPYC, Threadripper Pro) konusundaki karşılaştırmamız CPU-GPU denklemi için ayrıntılı analiz sunar.

AMD EPYC 9005 (Turin) serisi, soket başına 160 PCIe 5.0 şeridi ve 12 kanallı DDR5 ECC bellek (576 GB/s bellek bant genişliği) ile çift soket konfigürasyonda 8 adet GPU'yu tam x16 bant genişliğinde besleyebilir. Bu özellik, PCIe şerit kıtlığının yaşandığı eski Xeon platformlarına göre önemli bir avantaj sağlar. Form faktörü açısından ise yoğunluk ve genişletilebilirlik gereksinimlerine göre rack ya da tower sunucu tercih edilebilir. Rack ve tower sunucu form faktörü seçimi rehberimizde bu tercih kriterleri ayrıntılı ele alınmaktadır.

Bağlantı TeknolojisiMax Bant Genişliği (GPU-GPU)GPU Sayısı (tek soket)Kullanım Senaryosu
PCIe 5.0 x1664 GB/s (çift yön)4–8 (CPU şeridine bağlı)Genel AI/ML, çıkarım
NVLink 4.0 (H100/H200)900 GB/s (18 şerit)8 (NVSwitch ile)Büyük LLM eğitimi, tensor paralel
NVLink 3.0 (A100)600 GB/s8 (NVSwitch ile)Orta-büyük model eğitimi

Bellek, Ağ ve Depolama Gereksinimleri

GPU sunucuda sistem belleği en az 512 GB ECC RAM olmalı; ağ bağlantısı 100 GbE veya InfiniBand HDR ile sağlanmalı; depolama ise eğitim veri kümelerinin hızlı yüklenmesi için yüksek hızlı NVMe SSD üzerine kurulmalıdır.

Yüksek performanslı GPU sunucularda CPU belleği (sistem RAM'i) çoğu zaman göz ardı edilir; ancak büyük veri kümelerinin GPU'ya beslenmesi bu tampon alanın kritik önem taşıdığını gösterir. Eğitim odaklı sunucularda 512 GB ile 2 TB arasında DDR5 ECC RAM önerilir. Kurumsal iş istasyonlarında kullanılan ECC bellek mantığı sunucu platformlarında da geçerlidir; hata düzeltme kapasitesi uzun süreli model eğitimi oturumlarında bellek hatası kaynaklı çöküşleri önler.

Ağ tarafında, çoklu GPU sunucularının birbirini oluşturduğu eğitim kümelerinde InfiniBand HDR (200 Gb/s) veya en az 100 GbE bağlantı standart kabul edilir. Depolama açısından ise birincil model ve veri deposu için yüksek hızlı NVMe SSD gereklidir; NVIDIA GPUDirect Storage teknolojisi, verinin CPU tamponundan geçmeden doğrudan GPU belleğine aktarılmasını sağlayarak eğitim hızını önemli ölçüde artırır. Paylaşımlı çok kullanıcılı ortamlarda Lustre veya GPFS gibi paralel dosya sistemleri tercih edilir.

Sanallaştırma ve Paylaşımlı Erişim: MIG ve Çok Kiracılı Mimariler

MIG (Multi-Instance GPU) teknolojisi, bir H100 ya da A100 GPU'sunu donanım düzeyinde yedi bağımsız örneğe böler; her örnek ayrı bellek, işlemci ve bant genişliği korumasıyla çalışır ve çok kiracılı paylaşımlı ortamlar için güvenli izolasyon sağlar.

Kurumsal ortamlarda tek bir GPU sunucu platformunu birden fazla ekip ya da proje arasında paylaştırmak, maliyet verimliliği açısından zorunluluk haline gelir. NVIDIA'nın MIG teknolojisi, H100 ve A100 GPU'larını donanım düzeyinde bölümleyerek her bölüme ayrı VRAM, akış çok işlemcisi (SM) ve bellek denetleyicisi tahsis eder. Bu sayede farklı projelerin GPU kaynaklarını birbirini etkilemeden kullanması mümkün olur. Yerel LLM çalıştırma için GPU sunucu ve iş istasyonu karşılaştırmamızda paylaşımlı API mimarisi detaylı ele alınmaktadır.

API uç noktası servisi açısından, MIG ile bölümlenmiş GPU örnekleri her biri bağımsız bir CUDA cihazı olarak görünür; Triton Inference Server veya vLLM gibi çıkarım çerçeveleri her bölümde ayrı model instance'ı çalıştırabilir. Bu mimari; farklı model boyutlarını (7B, 13B, 70B parametreli) aynı fiziksel GPU sunucusunda izole biçimde barındırmayı ve her birini bağımsız API uç noktası olarak sunmayı mümkün kılar. Çok kiracılı ortamlarda ek katman olarak NVIDIA vGPU sürücüleri ve konteyner izolasyonu (Kubernetes + GPU Operator) kullanılır.

On-Premise GPU Sunucu ile Bulut GPU Karşılaştırması

On-premise GPU sunucu, öngörülebilir maliyet, veri egemenliği ve düşük gecikme avantajı sağlar; bulut GPU ise ani kapasite ihtiyaçları ve deneme-yanılma aşamaları için esneklik sunar. Uzun vadeli ve sürekli AI iş yükleri için on-premise genellikle daha düşük toplam sahip olma maliyeti (TCO) üretir.

GPU altyapısı kararı; iş yükü sürekliliği, veri gizliliği gereksinimleri ve finansal model tercihlerine göre şekillenir. Bulut GPU (AWS p4/p5, Google A3, Azure NDv4) saatlik kiralama modeliyle deney aşamalarında ve düzensiz iş yüklerinde esneklik sağlar. Ancak sürekli çalışan eğitim ve çıkarım iş yükleri için aylık bulut faturası hızla on-premise donanım yatırım maliyetini aşabilir. On-premise AI sunucu ile bulut GPU karşılaştırmasını ayrıntılı TCO hesaplamasıyla incelemek, bu kararı somutlaştırmak için iyi bir başlangıç noktasıdır.

Veri egemenliği ve uyumluluk açısından bankacılık, sağlık ve kamu gibi regülasyona tabi sektörlerde hassas verilerin bulut altyapısında işlenmesi çoğu zaman mevzuat engeliyle karşılaşır. On-premise GPU sunucu bu kısıtı ortadan kaldırır ve KVKK ile ISO 27001 gerekliliklerine uyumu kolaylaştırır. Hibrit model de yaygınlaşmaktadır: kritik ve sürekli iş yükleri on-premise sunucuda çalışırken ani talep artışları bulut GPU patlamasıyla karşılanır.

KriterOn-Premise GPU SunucuBulut GPU
Maliyet modeliCapEx (sabit yatırım)OpEx (kullanıma göre)
Veri egemenliğiTam kontrolSağlayıcıya bağımlı
GecikmeDüşük (yerel ağ)Değişken (WAN)
ÖlçeklendirmeSınırlı (donanım kapasitesi)Anlık esneklik
TCO (3 yıl, sürekli iş yükü)Genellikle düşükGenellikle yüksek
Kurulum süresiHaftalarDakikalar

Sık Sorulan Sorular

GPU sunucu nedir ve iş istasyonundan farkı nedir?

GPU sunucu; rack montajlı, çift CPU'lu ve paylaşımlı kullanıma açık, 4–8 veya daha fazla kurumsal GPU barındıran donanım platformlarıdır. İş istasyonlarından farklı olarak sürekli çevrimiçi kalır, uzak ekiplere API üzerinden hizmet verir ve veri merkezi soğutma sistemleriyle desteklenir.

GPU sunucuda kaç GPU bulunur?

Standart kurumsal GPU sunucular 4 ila 8 adet GPU barındırır. 8 GPU'lu konfigürasyonlar H100 SXM veya H200 ile NVSwitch üzerinden tam bağlantılı (all-to-all) GPU iletişimi sağlar. Özel HPC sistemleri raf dolabı ölçeğinde daha fazla GPU içerebilir.

H100 ile A100 arasında nasıl seçim yapılır?

H100, A100'e kıyasla yaklaşık 3× daha yüksek Transformer hesaplama performansı ve NVLink 4.0 ile üstün GPU-GPU bant genişliği sunar. Büyük LLM eğitimi için H100/H200 tercih edilirken, A100 daha olgun ekosistemi ve mevcut veri merkezi altyapısına uyumu nedeniyle hâlâ yaygın kullanılmaktadır.

GPU sunucu için mutlaka rack altyapısı gerekiyor mu?

Dört veya daha fazla GPU barındıran sistemler için rack montaj hem soğutma hem de kablo yönetimi açısından şarttır. Daha küçük iki GPU'lu sistemler tower form faktöründe çalışabilir; ancak büyük ölçekli AI altyapısı için rack kabinet standardı endüstri normu haline gelmiştir.

On-premise GPU sunucu mu, bulut GPU mu daha ekonomik?

Sürekli çalışan ve öngörülebilir iş yükleri için 18–24 ay içinde on-premise yatırım maliyeti genellikle geri kazanılır ve sonraki dönemlerde buluta kıyasla belirgin TCO avantajı sağlanır. Deneme veya mevsimsel iş yükleri için bulut esnekliği tercih edilebilir.

MIG ile çok kiracılı GPU paylaşımı güvenli midir?

Evet. MIG, GPU'yu donanım düzeyinde bölümler; her bölüm ayrı bellek ve işlemci korumasına sahiptir. Farklı kiracıların verileri donanım izolasyonu sayesinde birbirine karışmaz. NVIDIA, MIG'in sanallaştırma güvenliğini v100 tabanlı yazılım bölümlendirmesinden çok daha güvenilir olduğunu belgelemektedir.

GPU sunucu model eğitimi için mi, çıkarım için mi daha uygundur?

Her ikisi için de uygundur; ancak seçilen GPU modeli fark yaratır. H100/H200 ve A100 yoğun eğitim iş yükleri için optimize edilmiştir. L40S ve A40 çıkarım odaklı iş yüklerinde daha iyi fiyat-performans sunar. Karma iş yüklü kuruluşlar iki GPU tipini aynı platformda birleştirebilir.

Sonuç

GPU sunucu altyapısı, yapay zeka ve makine öğrenmesi projelerini ekip ölçeğinde ve sürdürülebilir biçimde çalıştırmanın temel koşuludur. H100/H200 ile büyük model eğitimi, L40S ile maliyet etkin çıkarım, MIG ile güvenli çok kiracılı paylaşım ve on-premise konuşlandırmayla veri egemenliği; doğru tasarlanmış bir GPU sunucu platformunun dört temel kazanımıdır. PCIe ve NVLink topolojisinin doğru seçimi, AMD EPYC'nin sunduğu PCIe şerit kapasitesi ve yüksek hızlı depolama entegrasyonu bu kazanımları somutlaştıran mühendislik kararlarıdır.

Kurumunuzun GPU altyapı ihtiyacını değerlendirmek ve H100/H200/L40S tabanlı on-premise çözümler için teknik fizibilite analizi yapmak ister misiniz? Sora GPU altyapı ekibimiz ücretsiz keşif görüşmesiyle donanım mimarisinden kuruluma kadar tüm süreci sizinle birlikte planlar.

Bu yazıdaki konulara ihtiyacınız mı var?

Sora Yazılım uzmanlarıyla ücretsiz keşif görüşmesi planlayın; somut bir yol haritası önerelim.