RUHMI & RA8P1 教程 part6 - 无 NPU 加持的模型转换和部署

本节仍以 RA8P1 和本文中的 `minst.tflite`模型文件为例，说明仅使用 CPU 执行推理的源码工程开发过程，并通过实测的数据展现 NPU 加持算力的加速效果。

suyong_yq

312人浏览 · 2026-01-11 00:44:58

suyong_yq · 2026-01-11 00:44:58 发布

RUHMI & RA8P1 教程 part6 - 无 NPU 加持的模型转换和部署

文章目录

RUHMI & RA8P1 教程 part6 - 无 NPU 加持的模型转换和部署
- - 配置生成仅由 CPU 执行模型的源码
  - 关键源码解析

RUHMI 不仅仅能生成使用 Arm Ethos-U NPU 计算模型的 C 源码，还可以生成不依赖于 Ethos-U NPU，仅使用 CPU 计算模型的C源码，实际上，当遇到 Ethos-U NPU 硬件不支持的算子，RUHMI 生成的源码大多是基于 Arm CMSIS-NN 软件库调用 CPU 的算力完成，当然也可以完全由 Arm CMSIS-NN 软件库实现。这种用法适用于一些对算力要求不高，或者对计算实时性要求不高的应用场景。但是，开发者应当有概念，使用通用CPU和使用NPU加持下的模型计算过程，其计算时间相差很大。

本节仍以 RA8P1 和本文中的 minst.tflite模型文件为例，说明仅使用 CPU 执行推理的源码工程开发过程，并通过实测的数据展现 NPU 加持算力的加速效果。

配置生成仅由 CPU 执行模型的源码

实际上，在前文中描述配置 Conversion Tool 的参数以启动 RUHMI 进行转换时，就允许开发者选择生成仅由 CPU 执行的源码。如图x所示。

在这里插入图片描述

图x 在Conversion Tool页面中配置生成源码仅为CPU执行

RUHMI 生成的仅由 CPU 执行模型的源码文件相对于调用 ethos-u driver 的源文件要精简一些。替换掉工程中原来的 src 文件夹后，编译工程，成功生成固件。如图x所示。

在这里插入图片描述

图x 编译CPU源码工程

同之前的操作类似，从编译生成的 map 文件中查找 SEGGER_RTT 组件的内存地址，配置 J-Link RTT Viewer 观察程序执行的 log 信息。如图x所示。

在这里插入图片描述

图x 配置J-Link RTT Viewer上位机

然后，运行程序观察实际的执行效果。如图x所示。

在这里插入图片描述

图x 仅用CPU运行程序显示推理结果

关键源码解析

使用 RUHMI 工具转换模型的过程中，生成了仅使用CPU推理模型的代码。

hal_entry.c文件中，同样通过调用mnist_inference()函数，向模型传样本数据、执行模型、获取模型推理结果。

但是，mninst_inference()函数中向模型输入输出和执行计算的过程有所不同。

void mnist_inference(uint8_t *p)
{
    memcpy(input_buffer, p, 28*28);
    TimeCounter_CountReset();
    g_dwt_start_0 = TimeCounter_CurrentCountGet();
    // RUN MODEL
    compute_sub_0000(compute_buffer, input_buffer, output_buffer);
    g_dwt_end_0 = TimeCounter_CurrentCountGet();
    g_dwt_diff = g_dwt_end_0 - g_dwt_start_0;
    SEGGER_RTT_printf(0, "\r\nDWT Inference took %d cycles\r\n", g_dwt_diff);

    invalidate_dcache_range((void*)output_ptr, 10); // 10 = 输出字节数

    result = 0;
    for (cnt = 0; cnt < 10; cnt++)
    {
        SEGGER_RTT_printf(0, "Output %d: %d\r\n", cnt,output_buffer[cnt]);
        if(output_buffer[cnt]==0xFF)
        {
            result = cnt;
            SEGGER_RTT_printf(0, "recognized! idx is %d\r\n",result);
        }
    }
}

这里仅使用compute_sub_0000()函数，完成了模型的输入输出和执行计算的过程。

九章云极普惠算力

更多推荐

Kandinsky-5.0-I2V-Lite-5s惊艳效果展示：赛博朋克街景→霓虹闪烁+雨滴滑落动态视频

本文介绍了如何在星图GPU平台上自动化部署Kandinsky-5.0-I2V-Lite-5s镜像，实现高效图生视频转换。该工具能将静态赛博朋克街景图片快速转换为动态视频，添加霓虹闪烁、雨滴滑落等效果，适用于短视频制作、广告创意等场景，显著提升内容创作效率。

九章云极普惠算力

终极指南：如何用facenet-pytorch快速构建企业级人脸识别系统

在当今数字化时代，人脸识别技术已成为身份验证、安全监控和智能交互的核心驱动力。facenet-pytorch作为一款基于PyTorch的开源人脸识别工具包，凭借其高效的MTCNN人脸检测和InceptionResnetV1特征提取能力，为开发者提供了从零构建专业级人脸识别系统的完整解决方案。本文将带你一步步探索这个强大工具的使用方法，从环境搭建到实际应用，让你在短时间内掌握人脸识别的核心技术。