Avvio veloce
-
Parametro di conteggio
7B, 8B, 70B in miliardi di parametri.
-
Scegliere quanti
q4_k_m e simili sono comuni per l'inferenza locale.
Pianificazione del disco e della VRAM prima di scaricare i pesi Ollama o llama.cpp GGUF.
Privacy: elaborato localmente, mai caricato.
↓ Incolla nell 'area di input qui sotto per vedere i risultati istantaneamente
按参数量(十亿)与量化格式粗算 GGUF 权重文件体积,便于选型本地部署硬件。
预估体积
3.59 GB
基于常见每参数字节数近似值。实际 GGUF 还含 tokenizer 与对齐填充,请以下载文件为准。
Pianificazione del disco e della VRAM prima di scaricare i pesi Ollama o llama.cpp GGUF.
Parametro di conteggio
7B, 8B, 70B in miliardi di parametri.
Scegliere quanti
q4_k_m e simili sono comuni per l'inferenza locale.
La larghezza di bit inferiore riduce i file, ma può danneggiare la qualità sui compiti difficili; benchmark sul carico di lavoro.
Stima la dimensione del disco GGUF dal conteggio dei parametri, dalla quantizzazione (Q4 / Q8) e dalla lunghezza del contesto prima della distribuzione.
Utilizzare quando si scelgono modelli Ollama / LM Studio, controllare lo spazio di testa del disco portatile o la fattibilità dei dispositivi edge.
Quando si prepara a scaricare o distribuire un modello GGUF, identificare prima il suo numero di parametri (ad esempio, 7 B per 7 miliardi di parametri). Inserire questo numero e selezionare un livello di quantizzazione (come Q4_K_M). Lo strumento stima istantaneamente lo spazio su disco e i requisiti di VRAM quando viene caricato.
Utilizzare le stime per abbinare i modelli con l'hardware. Un laptop VRAM da 4 GB si adatta ai modelli Q4 - quantizzati 7B, mentre una workstation da 24 GB gestisce i modelli Q5 70B. Una VRAM insufficiente innesca avvisi per prendere in una quantizzazione più alta o modelli più piccoli.
Input
7B params, q4_k_m
Output
~3.85 GB
La dimensione del file si approssimerà ai pesi; l'inferenza richiede VRAM extra per la cache KV.
Le stime coprono solo i pesi dei modelli. Il runtime richiede VRAM aggiuntiva per i buffer di calcolo, la cache KV (context chat) e l'overhead del sistema. Un modello 7B Q4 stimato a 3,8 GB può utilizzare 5 GB caricati. Le generazioni più lunghe aumentano ulteriormente le richieste.