VRAM 计算器

VRAMLLMGPU显存

VRAM Calculator

LLM 推理: 显存与性能计算器

等待处理

场景预设

模型与精度

08152230

硬件配置

1481216
1128256384512

输入参数

12468

每步同时处理的输入数,影响吞吐量和延迟。

2K4K8K16K33K

每个输入的最大 token 数,影响 KV cache 和激活。

12468

同时进行推理的用户数,影响内存和每用户性能。

卸载与推理优化

能耗与成本

结果

适配状态 -

-

预计总需求 -

-

单设备压力 -

-

-
显存占用

-

性能与内存

模型权重-量化后的基础模型
KV cache-序列、batch、并发与注意力结构
激活/临时缓冲-训练或推理过程中的中间张量
优化器/梯度-微调状态、LoRA/QLoRA buffer
框架与多卡开销-runtime、通信与碎片余量
卸载到系统侧-CPU/RAM 或 NVMe 承载的估算量
生成速度-tokens / second
TTFT-首 token 延迟估算
训练 token-样本、tokens/sample 与 epoch
训练时间-吞吐估算

模拟输出

选择配置后可播放一段生成速度模拟。

导出