【框架】:适用于端侧的深度学习推理框架:TensorRT
1.TensorRT是什么TensorRT:GPU Inference Engine(简称GIE)2.推断(Inference)可以做什么?推断(Inference)的网络权值已经固定下来,无后向传播过程,因此可以:(1)模型固定,可以对计算图进行优化(2) 输入输出大小固定,可以做memory优化推断(Inference)可以使用低精度的技术,另一方面是模型需要的空间减少,不管是权值的存储还是中
1.TensorRT是什么
TensorRT: GPU Inference Engine(简称GIE)
2.推断(Inference)可以做什么?
-
推断(Inference)的网络权值已经固定下来,无后向传播过程,因此可以:
(1)模型固定,可以对计算图进行优化(2) 输入输出大小固定,可以做memory优化
-
推断(Inference)可以使用低精度的技术,另一方面是模型需要的空间减少,不管是权值的存储还是中间值的存储,应用更低的精度,模型大小会相应减小。
3.推断(Inference)可以在哪些方面优化?
第一,也是最重要的,它把一些网络层进行了合并。
第二,比如在concat这一层,可以取消掉。
第三,Kernel可以根据不同的batch size 大小和问题的复杂程度,去选择最合适的算法,TensorRT预先写了很多GPU实现,有一个自动选择的过程。
第四,不同的batch size会做tuning。
第五,不同的硬件如P4卡还是V100卡甚至是嵌入式设备的卡,TensorRT都会做优化,得到优化后的engine。




魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)