自己动手写深度学习框架（npu硬件加速）

嵌入式-老费

1063人浏览 · 2025-11-22 08:23:57

嵌入式-老费 · 2025-11-22 08:23:57 发布

深度学习的model训练完之后，一般需要部署到pc或者是嵌入式开发板上面。这个时候，如果部署的环境是arm开发板，本身又没有加速ip的话，那就只能用ncnn来解决。反之，如果有npu的帮助，也就是硬件加速来帮忙，这样会好很多。npu硬件加速的原理，其实就是把常用的算子做一个加速而已。因为很多深度学习的网络特别深，cnn类的算子又特别多，所以用npu加速是非常好的选择。

1、常用的soc npu

公开市场上面能够获取到npu资料的soc不是很多，主要就是hisilicon、rk和allwinner。其他soc的npu资料，一般都要通过代理商，或者是原厂才能拿到。作为个人开发者，一般只能从上面三个soc里面挑选一个来处理。

2、个人建议选择的npu

目前rk这部分npu资料还是比较多的，除了有很多的开发板之外，选择面也很多。比如rk3562、3566、3568、3588，自身sdk就支持很多的soc。甚至最便宜rv1106这种，也可以使用。所以可以先学会一个soc的npu，那么其他品牌的soc其实也是类似的道理。

3、rknn官方的资料链接

如果是官方的资料链接，可以参考这个地址，里面主要包含了doc、rknn toolkit2、rknn toolkit lite2、rknpu2这几部分内容。

https://github.com/airockchip/rknn-toolkit2

当然，除了官方链接之外，某开发板的资料也还可以，建议可以一起看看，

https://doc.embedfire.com/linux/rk356x/Ai/zh/latest/README.html
&
https://gitee.com/LubanCat/lubancat_ai_manual_code

4、rknn toolkit2的作用

拿到pytorch训练好的model之后，一般先要转成onnx形式，然后再转成对应的rknn格式。rknn toolkit2就是帮助我们来做这个事情。它本身是一个whl开发包，运行在ubuntu20.04 os上面，python版本是python3，子版本有很多选择，大家挑选一个自己需要的版本就可以。

早期rknn toolkit2一定要运行在pc上，现在也可以运行在aarch64 soc上了。

5、rknn toolkit lite2的作用

这个名字和上面的rknn toolkit2可能有点混肴，不过rknn toolkit lite2的作用是让前面转成的rknn model，可以用python语言在npu上面跑起来。所以这个时候，程序的运行环境是arm soc上，开发语言是python，需要安装一个whl包。平时验证的时候，可以多用python来处理，速度会比较快，但是真正部署的时候还是c/c++。