Yerel LLM Çalıştırma: Workstation mı GPU Sunucu mu?
Yerel LLM çalıştırma artık kurumsal bir zorunluluk haline geliyor. Veri gizliliği, düşük gecikme ve sürdürülebilir maliyet baskısı altında CTO'lar ve IT direktörleri, bulut yerine kendi altyapılarında büyük dil modellerini barındırmayı tercih ediyor. Peki bu iş için workstation mı, GPU sunucu mu?
Yerel LLM İçin Ne Gerekir?
Yerel LLM çalıştırmak için gereken en kritik kaynak VRAM'dir. Model ağırlıkları GPU belleğine yüklenir; yeterli VRAM yoksa model ya çalışmaz ya da CPU'ya dökülerek kullanılamaz derecede yavaşlar.
Büyük dil modellerini (LLM) kendi altyapınızda çalıştırmak, birkaç yıl önce yalnızca büyük araştırma laboratuvarlarının yapabildiği bir işlemdi. Bugün ise tüketici sınıfı GPU'lar ve Ollama gibi açık kaynaklı araçlar sayesinde kurumsal BT ekipleri bu adımı rahatlıkla atabilmektedir. Ancak başarılı bir dağıtım için donanım gereksinimlerini doğru anlamak şarttır.
Bir LLM'in çalışması için model ağırlıklarının tamamının (veya kuantize edilmiş bir kısmının) GPU'nun VRAM'ine yüklenmesi gerekir. Bu yüklenemezse PyTorch veya llama.cpp sistemi CPU RAM'e döker (offloading), bu durumda çıkarım hızı token başına saniyelerle ölçülür ve pratikte kullanılamaz hale gelir. Sistem RAM'i ve CPU hızı, önişleme ve I/O için önemlidir; ancak asıl darboğaz her zaman VRAM'dir.
Depolama tarafında ise modeller dosya sisteminde 4 GB ile 1,3 TB arasında yer kaplar. Hızlı NVMe SSD, model yükleme süresini belirgin şekilde kısaltır; bu nedenle özellikle büyük modeller için PCIe 5.0 NVMe tercih edilmelidir. Ağ bağlantısı ise model indirme dışında yerel çıkarımda kritik değildir.
- VRAM: Model ağırlıklarını barındıran birincil kaynak — asla taviz verilmez
- CPU: Tokenizasyon, önişleme ve sistem koordinasyonu için önemli; modern EPYC veya Xeon tercih edilir
- Sistem RAM: Model offloading veya karmaşık bağlam yönetimi için 64 GB minimum, 128 GB+ önerilir
- NVMe SSD: Model yükleme hızını belirler; büyük modeller için PCIe 5.0 NVMe önerilir
- Güç kaynağı ve soğutma: RTX 5090 çift kart konfigürasyonunda 1000 W+ PSU gerekebilir
VRAM ve Model Boyutu: Hangi Model Hangi GPU'ya Sığar?
Model boyutu ve kuantizasyon düzeyi, gereken VRAM miktarını doğrudan belirler. 7B bir model FP16'da yaklaşık 14 GB VRAM isterken Q4 kuantizasyonuyla bu rakam 4-5 GB'a iner; 70B model ise Q4'te bile 35-40 GB VRAM gerektirir.
Kuantizasyon, model ağırlıklarının hassasiyetini düşürerek (örn. FP16'dan INT4'e) VRAM kullanımını dramatik biçimde azaltır. Doğruluk kaybı Q4 ile genellikle çok sınırlı kalır ve çoğu kurumsal kullanım senaryosunda kabul edilebilir düzeydedir. Q8 ise doğruluk ile VRAM arasında daha dengeli bir orta yol sunar.
| Model Boyutu | FP16 VRAM | Q8 VRAM | Q4 VRAM | Uygun GPU (Q4) |
|---|---|---|---|---|
| 7B | ~14 GB | ~7 GB | ~4-5 GB | RTX 3090 24 GB, RTX 4080 16 GB |
| 13B | ~26 GB | ~13 GB | ~8 GB | RTX 3090 24 GB, RTX 4090 24 GB |
| 30B | ~60 GB | ~30 GB | ~17 GB | RTX 4090 24 GB (sıkışık), RTX 5090 32 GB |
| 70B | ~140 GB | ~70 GB | ~35-40 GB | RTX 5090 32 GB (yakın), Çift RTX 5090 64 GB |
| 120B (MoE) | ~240 GB+ | ~120 GB | ~65-70 GB | RTX PRO 6000 Blackwell 96 GB, Çift A100 80 GB |
| 405B+ | ~800 GB+ | ~400 GB | ~200 GB+ | Çok GPU sunucu, A100/H100 kümesi |
Tablodaki rakamlar teorik minimum değerleri yansıtmaktadır; bağlam uzunluğu (context length) ve KV-cache arttıkça pratik VRAM kullanımı yükselir. Uzun bağlamlı (32K+ token) çalışma planlanıyorsa tablodaki değerlere en az yüzde 20-30 ek pay eklemek yerinde olur.
İkinci el piyasada RTX 3090 24 GB kartlar 650-750 dolar civarında bulunabilmekte ve 7B ile 13B modeller için son derece uygun bir maliyet-performans dengesi sunmaktadır. Kurumsal ortamlarda ise garanti, destek ve güvenilirlik kriterleri nedeniyle yeni RTX 5090 ya da datacenter sınıfı kartlar tercih edilmelidir.
Workstation ile Yerel LLM: Tek Kullanıcı ve Küçük Takımlar
Bir yapay zeka workstation'ı, tek geliştirici veya küçük ekip senaryolarında yerel LLM çalıştırmak için ideal başlangıç noktasıdır. RTX 5090 32 GB VRAM ile 70B Q4 modeli konforlu biçimde çalışır; ikinci kart eklenerek 64 GB'a çıkılabilir.
Workstation tabanlı yerel LLM kurulumu, özellikle model geliştirme, fine-tuning denemeleri ve prototipleme aşamalarında tercih edilir. Masaüstü veya kule form faktöründeki bir iş istasyonu, veri merkezi altyapısına gerek kalmadan ofis ortamında çalıştırılabilir ve gürültü/soğutma açısından daha yönetilebilir bir profil sunar.
NVIDIA RTX 5090, 32 GB GDDR7 VRAM ile tüketici segmentinin şu anki zirvesinde yer almaktadır. Bu kart, tek başına 70B parametreli bir modelin Q4 kuantize versiyonunu çalıştırabilir; Meta LLaMA 3.1 70B Q4 gibi modeller pratikte bu yapılandırmada kullanılmaktadır. İki RTX 5090 takıldığında toplam 64 GB VRAM elde edilir ve 70B modeller çok daha rahat bir şekilde çalışır, aynı zamanda daha uzun bağlam uzunlukları desteklenebilir.
Yapay zeka iş istasyonu seçimi konusunda detaylı bir rehber için GPU sayısı, PCIe bant genişliği ve soğutma gereksinimleri gibi kriterleri ele alan içeriğimizi incelemenizi öneririz. Workstation seçiminde dikkat edilmesi gereken diğer önemli noktalar arasında anakartın NVLink veya PCIe 5.0 desteği, yeterli güç kaynağı kapasitesi ve ECC bellek seçeneği yer almaktadır.
- Avantajlar: Düşük başlangıç maliyeti, kolay kurulum, ofis ortamında çalışabilir, gürültü yönetimi daha kolay
- Avantajlar: Tek geliştirici veya küçük ekip için yeterli; Ollama ile dakikalar içinde çalışır hale gelir
- Sınırlamalar: Eş zamanlı kullanıcı sayısı kısıtlı (genellikle 1-4 aktif oturum)
- Sınırlamalar: Çift GPU üstü konfigürasyonlar tower kasada zorlaşır; 4+ kart için sunucu şasisi gerekir
- Sınırlamalar: İş sürekliliği için UPS ve yedek güç planlaması gerekebilir
GPU Sunucu ile Ölçeklenen LLM Servisi
GPU sunucu, birden fazla eş zamanlı kullanıcıya hizmet vermesi gereken, yüksek erişilebilirlik ve ölçeklenebilirlik isteyen kurumsal LLM dağıtımları için doğru tercihtir. vLLM ile birlikte kullanıldığında throughput workstation'a kıyasla çok daha yüksektir.
Kurumsal ortamda bir LLM servisinin onlarca veya yüzlerce kullanıcıya eş zamanlı yanıt vermesi gerekebilir. Bu senaryoda workstation altyapısı hızla yetersiz kalır; GPU sunucu ve yüksek verimli çıkarım çerçeveleri devreye girer. GPU sunucu ve yapay zeka altyapısı seçiminde throughput, gecikme ve bellek bant genişliği birlikte değerlendirilmelidir.
RTX PRO 6000 Blackwell, 96 GB GDDR7 ECC VRAM ile kurumsal iş yüklerine yönelik tasarlanmış bir profesyonel GPU'dur. Bu kart, 120B parametreli Mixture-of-Experts (MoE) modellerini tek kartta Q4 kuantizasyonuyla çalıştırabilir. Datacenter sınıfında A100 80 GB ve H100 80 GB kartlar, NVLink ile birleştirildiğinde 405B+ parametreli modeller için de yeterli kapasiteye ulaşır.
Sunucu platformu seçiminde işlemci mimarisi de belirleyici bir rol oynar. AMD EPYC ve Intel Xeon Scalable işlemciler, çok kanallı bellek mimarileri ve yüksek PCIe şerit sayılarıyla GPU sunucu platformlarında standart haline gelmiştir. Sunucu işlemcisi seçimi — Xeon, EPYC ve Threadripper Pro karşılaştırması için ayrı bir rehberimiz mevcuttur.
| Senaryo | Önerilen Donanım | Tahmini Eş Zamanlı Kullanıcı | Uygun Model Boyutu |
|---|---|---|---|
| Tekil geliştirici / prototip | RTX 5090 32 GB (tek kart) | 1-2 | 7B-70B Q4 |
| Küçük takım (5-15 kullanıcı) | Çift RTX 5090 64 GB | 3-8 | 70B Q4 veya 30B FP16 |
| Departman (15-50 kullanıcı) | RTX PRO 6000 Blackwell 96 GB | 10-20 | 120B MoE Q4 |
| Kurumsal (50+ kullanıcı) | Çok GPU sunucu (A100/H100 80 GB x4+) | 50+ | 405B+ veya çoklu model |
| Hibrit (kritik + genel) | On-premise + bulut burst | Esnek | Tüm boyutlar |
Yazılım Yığını: Ollama, vLLM ve LM Studio
Ollama, tek komutla model indirip çalıştıran en kolay başlangıç aracıdır. vLLM, yüksek eş zamanlı istek ve üretim ortamları için optimize edilmiş throughput sunar. LM Studio ise GUI tabanlı yerel çalışma tercihi edenlere yönelik bir masaüstü uygulamasıdır.
Yerel LLM çalıştırma ekosistemi, son iki yılda inanılmaz biçimde olgunlaştı. Bugün bir ML mühendisinin CLI araçları, bir ürün yöneticisinin GUI uygulamaları ve bir DevOps mühendisinin Kubernetes üzerinde çalışan yüksek verimli servisler için farklı araçlar mevcut.
| Araç | Hedef Kullanıcı | Kurulum Zorluğu | Throughput | API Uyumluluğu | En İyi Senaryo |
|---|---|---|---|---|---|
| Ollama | Geliştirici, DevOps | Çok Kolay (tek komut) | Orta | OpenAI-uyumlu REST | Prototipleme, bireysel kullanım, hızlı test |
| vLLM | ML Mühendisi, DevOps | Orta (Python env) | Çok Yüksek | OpenAI-uyumlu REST | Üretim servisi, yüksek eş zamanlı istek |
| LM Studio | Geliştirici, analist | Çok Kolay (GUI) | Düşük-Orta | Sınırlı yerel API | Masaüstü kullanım, model keşfi |
| llama.cpp | İleri düzey geliştirici | Orta-Zor | Orta (CPU destekli) | Temel API | Düşük güçlü cihazlar, CPU çıkarım |
| text-generation-webui | Araştırmacı | Orta | Orta | Geniş eklenti desteği | Model karşılaştırma, ince ayar denemeleri |
Ollama'nın en büyük avantajı sıfır konfigürasyonlu başlangıçtır: `ollama run llama3.1:70b` komutu modeli otomatik olarak indirir, GPU'yu algılar ve bir REST API sunar. Kuantizasyon düzeyi de otomatik seçilir; ancak kullanıcı isterse Q4, Q8 gibi belirli etiketleri de tercih edebilir.
vLLM ise PagedAttention algoritması sayesinde KV-cache belleğini çok daha verimli kullanır. Yüksek eş zamanlı istek sayısında Ollama'ya kıyasla token/saniye cinsinden anlamlı bir fark oluşur. Üretim ortamında 10+ eş zamanlı kullanıcı hedefleniyorsa vLLM tercih edilmelidir. Docker ile veya Python sanal ortamında kurulabilir; Kubernetes üzerinde Helm chart desteği de mevcuttur.
Veri Gizliliği ve On-Premise: KVKK Perspektifinden Yerel LLM
KVKK kapsamındaki kişisel verilerin işlenmesinde, verilerin yurt dışı sunucularına gönderilmemesi temel gerekliliktir. On-premise LLM dağıtımı, bu yasal zorunluluğu karşılamanın doğrudan yoludur; bulut tabanlı API çağrıları ise ek sözleşme ve teknik önlemler gerektirir.
6698 sayılı Kişisel Verilerin Korunması Kanunu (KVKK), kişisel verilerin yurt dışına aktarılması için açık rıza veya yeterli koruma güvencesi şartını öngörmektedir. Bir LLM API'sine prompt olarak hasta kayıtları, finans verileri veya çalışan bilgileri gönderildiğinde bu veriler teknik olarak API sağlayıcısının altyapısına iletilmiş olur. Bu durum, özellikle sağlık, finans ve kamu sektörü kuruluşları için ciddi hukuki riskler barındırır.
On-premise LLM dağıtımı bu sorunu köklü biçimde çözer: veri fiziksel olarak kuruluş altyapısından çıkmaz, log kayıtları kontrol altındadır ve denetim izleri kurumun elindedir. On-premise AI sunucu ile bulut GPU karşılaştırması konusunda maliyet ve uyum boyutlarını ayrıntılı ele alan rehberimizi inceleyebilirsiniz.
Teknik izolasyon açısından ağ segmentasyonu da kritik önem taşır. LLM servisinin internete çıkışı olmayan izole bir ağ segmentinde çalışması, veri sızıntısı riskini minimize eder. Ayrıca model ağırlıklarının güvenli bir iç depoda (artifact registry) barındırılması ve model sürüm kontrolünün sağlanması, kurumsal güvenlik politikalarıyla uyumu pekiştirir.
- KVKK madde 9: Yurt dışı aktarımda açık rıza veya yeterli koruma şartı — on-premise bu riski ortadan kaldırır
- Sağlık sektörü: Hasta verilerini içeren promptların yabancı API'lara gönderilmesi, Sağlık Bakanlığı yönetmeliklerine aykırılık riski taşır
- Finans sektörü: BDDK ve SPK düzenlemeleri kapsamında müşteri finansal verileri için veri egemenliği şartı
- Kamu kurumları: Siber güvenlik mevzuatı gereği hassas verilerin yurt içinde işlenmesi zorunluluğu
- ISO 27001 uyumu: On-premise LLM, erişim kontrol ve denetim izi gereksinimlerini daha kolay karşılar
Workstation mı Sunucu mu? Karar Tablosu
Tek geliştirici veya küçük ekip için workstation, kurumsal çok kullanıcılı dağıtım için GPU sunucu doğru seçimdir. Karar; eş zamanlı kullanıcı sayısı, model boyutu, bütçe ve yönetilebilirlik gereksinimlerine göre şekillenir.
Her iki platform da yerel LLM çalıştırabilir; ancak ölçek, yönetim karmaşıklığı ve maliyet profilleri farklılaşır. Aşağıdaki karar tablosu, kurumunuzun gereksinimlerini mevcut seçeneklerle eşleştirmenize yardımcı olacaktır. İş istasyonu ve sunucu nedir? sorusunu yanıtlayan temel rehberimiz, platform farklarını daha geniş bir perspektiften ele almaktadır.
| Kriter | Workstation (RTX 5090) | GPU Sunucu (Çok GPU) |
|---|---|---|
| Başlangıç maliyeti | Orta (5.000-15.000 $) | Yüksek (20.000-100.000 $+) |
| Eş zamanlı kullanıcı | 1-8 (vLLM ile) | 10-100+ (vLLM ile) |
| Max VRAM (tek kasa) | 64 GB (çift RTX 5090) | 96-640 GB+ (RTX PRO 6000 / H100) |
| Ölçeklenebilirlik | Sınırlı (2-4 GPU) | Yüksek (8+ GPU, küme desteği) |
| Yönetim karmaşıklığı | Düşük | Orta-Yüksek (Kubernetes, Slurm) |
| Yüksek erişilebilirlik | Hayır (tek nokta) | Evet (yedekli konfigürasyon) |
| Gürültü ve soğutma | Yönetilebilir (ofis) | Veri merkezi gerektirir |
| Amorti süresi (vs bulut) | 5-7 ay | 8-18 ay (ölçeğe bağlı) |
| KVKK uyumu | Evet (veri çıkmaz) | Evet (veri çıkmaz) |
| En iyi senaryo | Prototip, küçük ekip | Kurumsal servis, çok kullanıcı |
Maliyet açısından değerlendirildiğinde, RTX 5090 tabanlı bir yerel sunucu kurulumu ile eşdeğer kapasitede bir bulut GPU hizmeti (ör. A10G, A100 saatlik kiralama) kıyaslandığında yerel altyapının kendini 5-7 ayda amorte ettiği görülmektedir. Bu süre, yoğun kullanım senaryolarında daha da kısalır.
Hibrit yaklaşım da giderek yaygınlaşmaktadır: temel iş yükleri on-premise workstation veya GPU sunucuda çalışırken, ani yük artışlarında bulut GPU kapasitesi burst olarak devreye alınır. Bu model, hem maliyet optimizasyonu hem de KVKK uyumu açısından dengeli bir çözüm sunar.
Sık Sorulan Sorular
Yerel LLM çalıştırmak için hangi GPU en iyisidir?
İhtiyaca göre değişir. Bireysel geliştirici için RTX 5090 (32 GB) veya bütçe dostu RTX 3090 (24 GB) idealdir. Kurumsal çok kullanıcılı servis için RTX PRO 6000 Blackwell (96 GB) ya da datacenter sınıfı A100/H100 önerilir.
70B parametreli model için kaç GB VRAM gerekir?
70B model FP16 hassasiyette yaklaşık 140 GB VRAM ister; Q4 kuantizasyonla bu 35-40 GB'a iner. Tek RTX 5090 (32 GB) yakın kapasitede çalışır; çift RTX 5090 (64 GB) ise 70B Q4 için konforlu marjı sağlar.
Ollama mı vLLM mi tercih etmeliyim?
Hızlı başlangıç ve bireysel kullanım için Ollama (tek komut, sıfır konfigürasyon). Üretim ortamında 10+ eş zamanlı istek varsa vLLM'in PagedAttention mekanizması çok daha yüksek throughput sağlar. İkisi birbirini dışlamaz; prototipte Ollama, üretimde vLLM kullanılabilir.
Yerel LLM mi, bulut LLM mi daha ucuz?
Yoğun kullanımda yerel altyapı genellikle daha ekonomiktir; RTX 5090 tabanlı kurulum eşdeğer bulut kapasitesine karşı yaklaşık 5-7 ayda amortize olur. Düşük ya da değişken kullanımda bulut daha avantajlı olabilir.
Yerel LLM veri gizliliği açısından ne kadar güvenlidir?
On-premise LLM'de veriler fiziksel olarak kurumun ağından çıkmaz; KVKK madde 9 kapsamında yurt dışı aktarım riski yoktur. Ağ izolasyonu ve erişim kontrol politikalarıyla desteklendiğinde en yüksek veri egemenliği seviyesi sağlanır.
CPU ve RAM, LLM performansını ne ölçüde etkiler?
VRAM dolduğunda veya offloading yapıldığında CPU hızı kritik hale gelir. Normal GPU çıkarımında CPU, tokenizasyon ve önişleme için kullanılır; 64 GB+ sistem RAM ile modern çok çekirdekli CPU (EPYC, Xeon) önerilir. Asıl darboğaz yine de VRAM'dir.
Kuantizasyon nedir ve modeli bozar mı?
Kuantizasyon, model ağırlıklarının hassasiyetini düşürür (FP16 → INT8 → INT4) ve VRAM gereksinimini azaltır. Q4 düzeyinde doğruluk kaybı çoğu kurumsal görevde ihmal edilebilir düzeyde kaldığı için Q4 veya Q8, yerel dağıtım için standart tercih haline gelmiştir.
Sonuç
Yerel LLM çalıştırma kararı, VRAM kapasitesi, eş zamanlı kullanıcı sayısı, veri gizliliği zorunlulukları ve uzun vadeli maliyet dengesi üzerine kurulur. Tek geliştirici veya küçük ekip için RTX 5090 tabanlı bir workstation ile Ollama kombinasyonu haftalar içinde devreye alınabilir; kurumsal çok kullanıcılı servisler içinse GPU sunucu ve vLLM altyapısı kaçınılmazdır. KVKK kapsamındaki sektörlerde on-premise dağıtım yalnızca maliyet avantajı değil, yasal uyum güvencesi de sağlar.
Kurumunuzun yerel LLM altyapısını planlamak, doğru GPU ve yazılım yığınını seçmek veya mevcut bulut harcamalarınızı on-premise yatırımla karşılaştırmak istiyorsanız Sora yerel LLM ekibimiz ile ücretsiz bir keşif görüşmesi yapabilirsiniz.