微比恩 > 信息聚合 > 英伟达 TensorRT 8 上线,BERT 推理延迟仅有 1.2 毫秒

英伟达 TensorRT 8 上线,BERT 推理延迟仅有 1.2 毫秒

2021-07-21 12:45:27来源: IT之家

英伟达昨日发布了其 TensorRT 的 8.0 版本。TensorRT 可以看作是在英伟达各种 GPU 硬件平台下运行的一个深度学习推理框架,其核心是一个 C++ 库。开发者可以将其他框架训练好的模型转化为 TensorRT 格式,并通过 TensorRT 推理引擎提升该模型的运行速度。芯东西等媒体和英伟达 AI 软件部的产品管理总监 Kari Briski、产品营销主管 Siddharth Sharma 就 TensorRT 8 的技术细节、应用落地等进行了深入地探讨。此外,Kari Briski 和 Siddharth Sharma 也分享了英伟达团队在推荐系统竞赛中所取得的成绩。一、运行速度和精准度提升 1 倍,推理延迟仅有 1 毫秒Kari Briski 首先回顾了英伟达 TensorRT 的推出背景和成绩。她说,AI 模型正在以指数级的速度增长,很多公司不得不缩减模型大小以追求响应速度。而英伟达 2016 年推出的

关注公众号
标签: 英伟达