Hızlı başlangıç
-
Parametreler sayısını ayarlayın
Örneğin, 7B, 8B, 70B milyarlarca parametre.
-
Quant seçin
q4_k_m ve benzeri yerel çıkarım için yaygındır.
Ollama veya llama.cpp GGUF ağırlıklarını indirmeden önce kaba disk ve VRAM planlaması.
Gizlilik: yerel olarak işlenir, asla yüklenmez.
Anında sonuçları görmek için aşağıdaki giriş alanına yapıştırın
按参数量(十亿)与量化格式粗算 GGUF 权重文件体积,便于选型本地部署硬件。
预估体积
3.59 GB
基于常见每参数字节数近似值。实际 GGUF 还含 tokenizer 与对齐填充,请以下载文件为准。
Ollama veya llama.cpp GGUF ağırlıklarını indirmeden önce kaba disk ve VRAM planlaması.
Parametreler sayısını ayarlayın
Örneğin, 7B, 8B, 70B milyarlarca parametre.
Quant seçin
q4_k_m ve benzeri yerel çıkarım için yaygındır.
Düşük bit genişliği dosyaları küçültür ancak zor görevlerde kalitesine zarar verebilir; iş yükünüzde kıyaslama.
GGUF disk boyutunu parametre sayımı, kuantitasyon (Q4 / Q8) ve dağıtımdan önce bağlam uzunluğundan tahmini edin.
Ollama / LM Studio modelleri seçerken, dizüstü bilgisayar disk baş boşluğunu kontrol ederken veya kenar cihazının uygulanabilirliğini kontrol ederken kullanın.
Bir GGUF modelini indirme veya dağıtmaya hazırlanırken, ilk olarak parametresi sayısını belirleyin (örneğin, 7B için 7 milyar parametre). Bu sayıyı girin ve bir kuantitasyon seviyesini seçin (örneğin Q4_K_M). Araç yüklendiğinde disk alanını ve VRAM gereksinimlerini anında tahmin eder.
Modelleri donanımınızla eşleştirmek için tahminleri kullanın. Bir 4GB VRAM dizüstü bilgisayar, Q4 kuantize edilmiş 7B modelleri, 24GB iş istasyonu ise Q5 70B modelleri ile çalışır. Yetersiz VRAM, daha yüksek kuantitasyon veya daha küçük modelleri dikkate almak için uyarıları tetikler.
Input
7B params, q4_k_m
Output
~3.85 GB
Dosya boyutu ağırlıkları yaklaşır; çıkarım KV önbellek için ekstra VRAM gerektirir.
Tahminler yalnızca model ağırlıklarını kapsar.Çalışma zamanı, hesaplama arabellekleri, KV önbelleği (sohbet bağlamı) ve sistem overhead için ekstra VRAM gerektirir. 3.8GB olarak tahmin edilen bir 7B Q4 modeli, yüklü 5GB kullanabilir. Uzun nesiller taleplerini daha da arttırıyor.