产品中心 PRODUCT

联系我们 CONTACT US

电话：18236932763
地址：深圳南山区西丽龙珠三路光前工业区21栋
邮箱：sean@lrist.com

NVIDIA A100 Tensor Core GPU

nVidia A100 Tensor Core GPU

浏览人气：79 次更新时间：2026-06-04

产品品类：
GPU卡
服务承诺：
专注于工业主板、工控机、图像采集卡的方案实施
技术支持：
提供从云到端的全流程产品研发和生产服务

致电获取方案

产品详细介绍 / Technical Details

nVidia A100 Tensor Core GPU

NVIDIA A100 采用双精度 Tensor Core，实现了自 GPU 推出以来高性能计算性能的巨大飞跃。结合 80GB 的超快 GPU 显存，研究人员可以在 A100 上将 10 小时双精度仿真缩短到 4 小时以内。HPC 应用还可以利用 TF32 将单精度、密集矩阵乘法运算的吞吐量提高高达 10 倍。

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景，在不同规模下实现出色的加速，有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构，是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍，并可划分为七个 GPU 实例，以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本，A100 80GB 将 GPU 显存增加了一倍，并提供超快速的显存带宽（每秒超过 2 万亿字节 [TB/s]），可处理超大型模型和数据集。

深度学习训练

DLRM 训练

针对大型模型提供高达 3 倍的 AI 训练速度

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

当今的 AI 模型面临着对话式 AI 等更高层次的挑战，这促使其复杂度呈爆炸式增长。训练这些模型需要大规模的计算能力和可扩展性。

NVIDIA A100 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度，可提供比 NVIDIA Volta 高 20 倍之多的性能，并且无需更改代码；若使用自动混合精度和 FP16，性能可进一步提升 2 倍。与 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCIe 4.0、NVIDIA® InfiniBand® 和 NVIDIA Magnum IO™ SDK 结合使用时，它能扩展到数千个 A100 GPU。

2048 个 A100 GPU 可在一分钟内成规模地处理 BERT 之类的训练工作负载，这是非常快速的解决问题速度。

对于具有庞大数据表的超大型模型（例如深度学习推荐模型 [DLRM]），A100 80GB 可为每个节点提供高达 1.3TB 的统一显存，而且吞吐量比 A100 40GB 多高达 3 倍。

NVIDIA 的领先地位在 MLPerf 这个行业级 AI 训练基准测试中得到印证，创下多项性能纪录。

详细了解 A100 的训练性能

深度学习推理

A100 引入了突破性的功能来优化推理工作负载。它能在从 FP32 到 INT4 的整个精度范围内进行加速。多实例 GPU (MIG) 技术允许多个网络同时基于单个 A100 运行，从而优化计算资源的利用率。在 A100 其他推理性能增益的基础之上，仅结构稀疏支持一项就能带来高达两倍的性能提升。

在 BERT 等先进的对话式 AI 模型上，A100 可将推理吞吐量提升到高达 CPU 的 249 倍。

在受到批量大小限制的极复杂模型（例如用于自动语音识别用途的 RNN-T）上，显存容量有所增加的 A100 80GB 能使每个 MIG 的大小增加一倍，并提供比 A100 40GB 高 1.25 倍的吞吐量。

NVIDIA 产品的出色性能在 MLPerf 推理测试中得到验证。A100 再将性能提升了 20 倍，进一步扩大了这种性能优势。

详细了解 A100 的推理性能

BERT-LARGE 推理

与 CPU 相比，AI 推理性能提升 249 倍

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100：采用稀疏技术的 NVIDIA TensorRT™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8。

RNN-T 推理：单流

与 A100 40GB 相比，AI 推理性能提升 1.25 倍

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16。

高性能计算

为了获得新一代的发现成果，科学家们希望通过仿真来更好地了解我们周围的世界。

NVIDIA A100 采用双精度 Tensor Core，实现了自 GPU 推出以来高性能计算性能的巨大飞跃。结合 80GB 的超快 GPU 显存，研究人员可以在 A100 上将 10 小时双精度仿真缩短到 4 小时以内。HPC 应用还可以利用 TF32 将单精度、密集矩阵乘法运算的吞吐量提高高达 10 倍。

对于具有超大数据集的高性能计算应用，显存容量增加的 A100 80GB 可在运行材料仿真 Quantum Espresso 时将吞吐量提升高达 2 倍。极大的显存容量和超快速的显存带宽使 A100 80GB 非常适合用作新一代工作负载的平台。

高性能数据分析

相较于 A100 40GB，在大数据分析基准测试中速度提升 2 倍

大数据分析基准测试 | 针对 10TB 数据集的 30 次分析零售查询、ETL、ML、NLP | V100 32GB，RAPIDS/Dask | A100 40GB 和 A100 80GB，RAPIDS/Dask/BlazingSQL

数据科学家需要能够分析和可视化庞大的数据集，并将其转化为宝贵见解。但是，由于数据集分散在多台服务器上，横向扩展解决方案往往会陷入困境。

搭载 A100 的加速服务器可以提供必要的计算能力，并能利用大容量显存、超过 2 TB/s 的显存带宽以及通过 NVIDIA® NVLink® 和 NVSwitch™ 实现的可扩展性，处理这些工作负载。通过结合 InfiniBand、NVIDIA Magnum IO™ 和 RAPIDS™ 开源库套件（包括用于执行 GPU 加速的数据分析的 RAPIDS Accelerator for Apache Spark），NVIDIA 数据中心平台能够加速这些大型工作负载，并实现超高的性能和效率水平。

在大数据分析基准测试中，A100 80GB 提供的见解吞吐量比 A100 40GB 高两倍，因此非常适合处理数据集大小急增的新型工作负载。

详细了解数据分析

为企业提高资源利用率

BERT Large 推理

借助多实例 GPU (MIG)，推理吞吐量可提升高达 7 倍

BERT Large 推理 | 采用稀疏技术的 NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8。

A100 结合 MIG 技术可以更大限度地提高 GPU 加速的基础设施的利用率。借助 MIG，A100 GPU 可划分为多达 7 个独立实例，让多个用户都能使用 GPU 加速功能。借助 A100 40GB，每个 MIG 实例可分配多达 5GB，而随着 A100 80GB 显存容量的增加，此大小可翻倍至 10GB。

MIG 与 Kubernetes、容器和基于服务器虚拟化平台的服务器虚拟化配合使用。MIG 可让基础设施管理者为每项作业提供大小合适的 GPU，同时确保服务质量 (QoS)，从而扩大加速计算资源的影响范围，以覆盖每位用户。

详细了解 MIG

数据中心 GPU

适用于 HGX 的 NVIDIA A100

性能出色，轻松处理各种工作负载。

PCIe 版 NVIDIA A100

十分适合处理各种工作负载。

规格

	A100 80GB PCIe	A100 80GB SXM
FP64	9.7 TFLOPS
FP64 Tensor Core	19.5 TFLOPS
FP32	19.5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
FP16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
INT8 Tensor Core	624 TOPS \| 1248 TOPS*
GPU 显存	80GB HBM2	80GB HBM2e
GPU 显存带宽	1935 GB/s	2039 GB/s
最大热设计功耗 (TDP)	300W	400W ***
多实例 GPU	最大为 7 MIG @ 5GB	最大为 7 MIG @ 10GB
外形规格	PCIe 双插槽风冷式或单插槽液冷式	SXM
互连	NVIDIA® NVLink® 桥接器 2 块 GPU：600 GB/s ** PCIe 4.0：64 GB/s	NVLink：600 GB/s PCIe 4.0：64 GB/s
服务器选项	合作伙伴及配备 1 至 8 个 GPU 的 NVIDIA 认证系统™	NVIDIA HGX™ A100 合作伙伴和配备 4、8 或 16 块 GPU 的 NVIDIA 认证系统配备 8 块 GPU 的 NVIDIA DGX™ A100

* 采用稀疏技术
** SXM4 GPU 通过 HGX A100 服务器主板连接；PCIe GPU 通过 NVLink 桥接器可桥接多达两个 GPU
*** 400W TDP（适用于标准配置）。HGX A100-80 GB 自定义散热解决方案 (CTS) SKU 可支持高达 500W 的 TDP

上一篇：NVIDIA GeForce RTX 4090

下一篇：没有了！

推荐新闻

不知道哪款产品更适合自己吗？