GGUF Size Estimator (Stimatore di dimensioni)

Pianificazione del disco e della VRAM prima di scaricare i pesi Ollama o llama.cpp GGUF.

Privacy: elaborato localmente, mai caricato.

↓ Incolla nell 'area di input qui sotto per vedere i risultati istantaneamente

按参数量(十亿)与量化格式粗算 GGUF 权重文件体积,便于选型本地部署硬件。

预估体积

3.59 GB

Note

估算说明

基于常见每参数字节数近似值。实际 GGUF 还含 tokenizer 与对齐填充,请以下载文件为准。

Pianificazione del disco e della VRAM prima di scaricare i pesi Ollama o llama.cpp GGUF.

Avvio veloce

  1. Parametro di conteggio

    7B, 8B, 70B in miliardi di parametri.

  2. Scegliere quanti

    q4_k_m e simili sono comuni per l'inferenza locale.

Quanti tradeoffs

La larghezza di bit inferiore riduce i file, ma può danneggiare la qualità sui compiti difficili; benchmark sul carico di lavoro.

Caratteristiche e casi d'uso

Stima la dimensione del disco GGUF dal conteggio dei parametri, dalla quantizzazione (Q4 / Q8) e dalla lunghezza del contesto prima della distribuzione.

Utilizzare quando si scelgono modelli Ollama / LM Studio, controllare lo spazio di testa del disco portatile o la fattibilità dei dispositivi edge.

Tipico Workflow

Quando si prepara a scaricare o distribuire un modello GGUF, identificare prima il suo numero di parametri (ad esempio, 7 B per 7 miliardi di parametri). Inserire questo numero e selezionare un livello di quantizzazione (come Q4_K_M). Lo strumento stima istantaneamente lo spazio su disco e i requisiti di VRAM quando viene caricato.

Utilizzare le stime per abbinare i modelli con l'hardware. Un laptop VRAM da 4 GB si adatta ai modelli Q4 - quantizzati 7B, mentre una workstation da 24 GB gestisce i modelli Q5 70B. Una VRAM insufficiente innesca avvisi per prendere in una quantizzazione più alta o modelli più piccoli.

Esempi

Esempio

Input

7B params, q4_k_m

Output

~3.85 GB

FAQ

Uso di VRAM?

La dimensione del file si approssimerà ai pesi; l'inferenza richiede VRAM extra per la cache KV.

Perché l'utilizzo effettivo della VRAM è più alto del previsto?

Le stime coprono solo i pesi dei modelli. Il runtime richiede VRAM aggiuntiva per i buffer di calcolo, la cache KV (context chat) e l'overhead del sistema. Un modello 7B Q4 stimato a 3,8 GB può utilizzare 5 GB caricati. Le generazioni più lunghe aumentano ulteriormente le richieste.