VRAM 计算器

VRAMLLMGPU显存

等待处理

场景预设

模型与精度

选择模型

推理量化

KV 缓存量化

框架开销 (%)

08152230

硬件配置

设备 / GPU

GPU / 设备数量

1481216

单设备显存 / 统一内存 (GB)

1128256384512

多卡互联

推理并行

硬件配置文件

配置名称

输入参数

批量大小

12468

Log scale

每步同时处理的输入数，影响吞吐量和延迟。

序列长度

2K4K8K16K33K

每个输入的最大 token 数，影响 KV cache 和激活。

并发用户数

12468

Log scale

同时进行推理的用户数，影响内存和每用户性能。

卸载与推理优化

启用卸载到 CPU/RAM 或 NVMe

卸载目标

卸载 KV cache

按层卸载

卸载层数

卸载比例 (%)

启用 Prefix Caching

共享前缀比例 (%)

Continuous Batching

能耗与成本

电价 ($/kWh)

碳强度

TTFT simulation

结果

适配状态 -

预计总需求 -

单设备压力 -

显存占用

性能与内存

模型权重-量化后的基础模型

KV cache-序列、batch、并发与注意力结构

激活/临时缓冲-训练或推理过程中的中间张量

优化器/梯度-微调状态、LoRA/QLoRA buffer

框架与多卡开销-runtime、通信与碎片余量

卸载到系统侧-CPU/RAM 或 NVMe 承载的估算量

生成速度-tokens / second

TTFT-首 token 延迟估算

训练 token-样本、tokens/sample 与 epoch

训练时间-吞吐估算

模拟输出

选择配置后可播放一段生成速度模拟。

VRAM 计算器

场景预设

模型与精度

硬件配置

输入参数

卸载与推理优化

训练数据与优化器

能耗与成本

结果

性能与内存

能耗与成本

模拟输出

导出

VRAM 计算器

LLM 推理: 显存与性能计算器

场景预设

模型与精度

硬件配置

输入参数

卸载与推理优化

训练数据与优化器

能耗与成本

结果

性能与内存

能耗与成本

模拟输出

导出