██╗
██║
╚═╝

LLM VRAM Calculator

Estimate GPU memory requirements for large language models

Model Configuration

Quick Preset

Parameters (Billions)

Context Length (tokens)

Num Layers (for KV cache)

Num KV Heads

Quantization

Precision / Format

Bits per parameter—

Bytes per parameter—

Quality notes—

Overhead % (activations, runtime)

Results

Weights VRAM

—

KV Cache (per layer)

—

Total (w/ overhead)

—

Memory Breakdown

GPU Compatibility