Estimador de tamanho do GGUF

Planejamento de disco bruto e VRAM antes de baixar pesos GGUF Ollama ou llama.cpp.

Privacidade: processado localmente, nunca carregado.

↓ Colar na área de entrada abaixo para ver os resultados instantaneamente

按参数量(十亿)与量化格式粗算 GGUF 权重文件体积,便于选型本地部署硬件。

预估体积

3.59 GB

Notas

估算说明

基于常见每参数字节数近似值。实际 GGUF 还含 tokenizer 与对齐填充,请以下载文件为准。

Planejamento de disco bruto e VRAM antes de baixar pesos GGUF Ollama ou llama.cpp.

Iniciação rápida

  1. Contagem de parâmetros

    7B, 8B, 70B em bilhões de parâmetros.

  2. Escolha quantidade

    q4_k_m e similares são comuns para inferência local.

Quantidade de tradeoffs

Largura de bits menor encolhe arquivos, mas pode prejudicar a qualidade em tarefas difíceis; benchmark na sua carga de trabalho.

Características e casos de uso

Estimar o tamanho do disco do GGUF a partir da contagem de parâmetros, quantização (Q4 / Q8) e comprimento do contexto antes da implantação.

Use ao escolher modelos Ollama / LM Studio, verificar o headroom do disco do laptop ou a viabilidade do dispositivo de borda.

Fluxo de trabalho típico

Ao se preparar para baixar ou implantar um modelo GGUF, primeiro identifique sua contagem de parâmetros (por exemplo, 7 B para 7 bilhões de parâmetros). Digite este número e selecione um nível de quantização (como Q4_K_M). A ferramenta estima instantaneamente o espaço em disco e os requisitos de VRAM quando carregada.

Use estimativas para combinar modelos com seu hardware. Um laptop de 4 GB de VRAM é adequado para os modelos Q4 - quantizado 7B, enquanto uma estação de trabalho de 24 GB lida com os modelos Q5 70B. VRAM insuficiente aciona alertas para considerar quantização mais alta ou modelos menores.

Exemplos

Exemplo

Input

7B params, q4_k_m

Output

~3.85 GB

FAQ

Uso de VRAM?

O tamanho do arquivo se aproxima dos pesos; a inferência precisa de VRAM extra para o cache KV.

Por que o uso real de VRAM é maior do que o estimado?

As estimativas cobrem somente os pesos do modelo. O tempo de requer VRAM adicional para buffers de computação, cache KV (contexto de chat) e sobrecarga do sistema. Um modelo 7B Q4 estimado em 3,8 GB pode usar 5 GB carregado. As gerações longas aumentam ainda mais as demandas.