GGUF Boyut Tahmini

Ollama veya llama.cpp GGUF ağırlıklarını indirmeden önce kaba disk ve VRAM planlaması.

Gizlilik: yerel olarak işlenir, asla yüklenmez.

Anında sonuçları görmek için aşağıdaki giriş alanına yapıştırın

按参数量(十亿)与量化格式粗算 GGUF 权重文件体积,便于选型本地部署硬件。

预估体积

3.59 GB

Notlar

估算说明

基于常见每参数字节数近似值。实际 GGUF 还含 tokenizer 与对齐填充,请以下载文件为准。

Ollama veya llama.cpp GGUF ağırlıklarını indirmeden önce kaba disk ve VRAM planlaması.

Hızlı başlangıç

  1. Parametreler sayısını ayarlayın

    Örneğin, 7B, 8B, 70B milyarlarca parametre.

  2. Quant seçin

    q4_k_m ve benzeri yerel çıkarım için yaygındır.

Quant tradeoffs

Düşük bit genişliği dosyaları küçültür ancak zor görevlerde kalitesine zarar verebilir; iş yükünüzde kıyaslama.

Özellikler ve kullanım durumları

GGUF disk boyutunu parametre sayımı, kuantitasyon (Q4 / Q8) ve dağıtımdan önce bağlam uzunluğundan tahmini edin.

Ollama / LM Studio modelleri seçerken, dizüstü bilgisayar disk baş boşluğunu kontrol ederken veya kenar cihazının uygulanabilirliğini kontrol ederken kullanın.

Tipik iş akışı

Bir GGUF modelini indirme veya dağıtmaya hazırlanırken, ilk olarak parametresi sayısını belirleyin (örneğin, 7B için 7 milyar parametre). Bu sayıyı girin ve bir kuantitasyon seviyesini seçin (örneğin Q4_K_M). Araç yüklendiğinde disk alanını ve VRAM gereksinimlerini anında tahmin eder.

Modelleri donanımınızla eşleştirmek için tahminleri kullanın. Bir 4GB VRAM dizüstü bilgisayar, Q4 kuantize edilmiş 7B modelleri, 24GB iş istasyonu ise Q5 70B modelleri ile çalışır. Yetersiz VRAM, daha yüksek kuantitasyon veya daha küçük modelleri dikkate almak için uyarıları tetikler.

Örnekler

Örnek

Input

7B params, q4_k_m

Output

~3.85 GB

FAQ

VRAM kullanımı ile eşleşir mi?

Dosya boyutu ağırlıkları yaklaşır; çıkarım KV önbellek için ekstra VRAM gerektirir.

Gerçek VRAM kullanımı tahmin edilenden neden daha yüksek?

Tahminler yalnızca model ağırlıklarını kapsar.Çalışma zamanı, hesaplama arabellekleri, KV önbelleği (sohbet bağlamı) ve sistem overhead için ekstra VRAM gerektirir. 3.8GB olarak tahmin edilen bir 7B Q4 modeli, yüklü 5GB kullanabilir. Uzun nesiller taleplerini daha da arttırıyor.