中草药（饮片）检测识别--YOLO目标检测-毕设

基于深度学习的中草药检测项目，采用YOLO系列算法实现目标检测。项目涵盖40余种中草药，实现YOLOV5/V8/V10/V11四种模型及优化改进：1)使用DWConV卷积实现轻量化；2)添加ODConv全维度动态卷积模块；3)引入CAFM卷积注意力融合模块；4)采用ATFL自适应阈值损失函数。项目提供完整技术文档、并开发了两种风格的GUI演示系统，支持图片/视频/摄像头输入检测。该项目兼具学术价值

毕设论文辅导

1251人浏览 · 2025-09-23 12:02:55

毕设论文辅导 · 2025-09-23 12:02:55 发布

大家好，我是B站的UP主：我喜欢吃小熊饼干。我在CSDN会写一些文章介绍我做的项目，这些项目我都录制了详细的讲解视频（约4-6个小时的内容量），讲解基础知识，环境配置，代码使用等内容。

详细了解请移步-目标检测合集：

详细讲解视频-我喜欢吃小熊饼干的主页-哔哩哔哩视频https://space.bilibili.com/284801305

几分钟快速预览项目效果的演示视频：

【计算机毕设】基于深度学习的中草药检测【YOLO模型】【目标检测】【Pytorch】

详细的讲解视频合集：

合集第一集：主要讲对整个教程的介绍，深度学习项目的基本做法和基本概念。然后介绍具体该项目的基本做法。如何去扩张项目，增加更多的内容。（这里不会涉及到代码，纯从项目的做法的角度，以PPT讲解的方式带大家入门，建立深度学习的基本概念）
合集第二集：毕设选题指导，毕设服务等内容
合集第三集：从代码使用和演示的角度，介绍项目的内容。科普深度学习环境配置的知识，如何配置项目，如何使用项目，更换数据集训练，完成特定的课题。
合集第四集：讲解文档相关的内容，开题报告、开题ppt、开题答辩，论文写作，论文答辩等

第一集和第三集比较重要，可以整体看下这两个视频。

下面我用文字介绍一下项目的内容

项目的背景意义：

在中医药事业传承创新与大健康产业蓬勃发展的背景下，中草药作为中医药理论与实践的核心载体，其品质优劣、品种真伪直接关系到临床疗效、用药安全与产业公信力。无论是中药材种植基地的品种筛选、药材市场的质量监管，还是中药企业的原料分拣、炮制加工，都需要对中草药的品种、形态及品质特征进行精准识别，才能保障中医药 “源头可控、过程可溯、质量可靠”。然而，传统中草药检测模式依赖人工鉴别、经验判断等方式，存在显著局限：人工鉴别易受主观经验差异影响，对形态相似、易混淆的中草药（如不同品种的黄芪、相似外观的有毒草药与常用药材）难以精准区分，导致误判风险；人工检测效率低、覆盖范围有限，难以满足规模化药材流通与产业化生产的需求，既制约了中医药产业的标准化发展，也给用药安全带来潜在隐患。

随着深度学习技术在目标检测领域的突破，YOLO 算法凭借 “单次检测、实时响应、多特征捕捉” 的核心优势，为中草药检测提供了技术革新路径。其通过卷积神经网络可快速捕捉中草药的叶片纹理、根茎形态、颜色特征等细微差异，在复杂场景（如混杂堆放、不同炮制阶段、部分破损药材）中实现对中草药的精准定位与品种鉴别，突破传统检测 “经验依赖强、抗干扰弱” 的瓶颈。对于深度学习方向的毕业设计而言，基于 YOLO 的中草药检测项目不仅是对算法原理、模型训练、数据处理等理论知识的实践转化，更承载着连接学术研究与中医药产业实际需求的重要价值。

从实践意义来看，该项目可围绕中草药检测的核心痛点展开技术探索：例如，通过优化 YOLO 网络结构提升细微特征差异（如叶片脉络、果皮纹路）的识别精度，通过数据增强技术增强算法对不同生长阶段、不同炮制状态中草药的适应性，通过多类别分类模型构建实现对正品与伪品、优质与劣质药材的精准区分，为实际场景提供 “智能鉴别 - 质量初筛 - 风险预警” 的一体化技术方案。这些探索不仅能深化对目标检测算法在特定领域应用逻辑的理解，更能培养数据标注、模型调优、性能评估的综合科研能力，为后续在计算机视觉、智慧中医药等领域的深入研究奠定基础。

从行业与社会价值来看，项目成果可作为中药材质量监管、中药产业升级、中医药文化传承的核心技术支撑：在监管领域，精准的中草药检测能辅助市场监管部门提升药材鉴别效率，打击以次充好、以假乱真等乱象，保障用药安全；在产业领域，可助力中药企业优化原料分拣流程，提升生产标准化水平，推动中医药产业向 “高质量、高效率” 转型；在文化传承领域，能为中草药资源的数字化保护提供技术支撑，助力传统中医药知识的传承与创新。此外，项目所体现的 “算法场景化适配 - 产业问题解决 - 文化保护赋能” 思路，也为深度学习技术在中医药领域的规模化应用提供了参考范式。

长远来看，基于 YOLO 的中草药检测技术不仅是智慧中医药体系建设的重要组成部分，更是推动中医药现代化、标准化、国际化发展的关键环节。而毕设项目作为技术探索的起点，其研究过程与成果既能为学术领域贡献实践经验，也能为中医药产业的技术升级与文化传承提供思路，兼具显著的学术价值、实践价值与文化价值。

项目的技术路线图

项目的数据集信息如下：

数据集图片一共有13000张图片。

BaiZhi: 1239
CangErZi: 526
ChiShao: 305
ChuanMuJin: 1246
GeGen: 268
HuangBai: 532
ShiJunZi: 518
baimaogen: 1682
baizhu: 295
binglang: 424
daxueteng: 599
duzhong: 126
fuling: 947
ganjiang: 404
gouji: 172
gouteng: 1937
guizhi: 449
haipiaoxiao: 300
hehuanpi: 495
houpu: 496
jiangbanxia: 715
jingjie: 1817
jixueteng: 506
lingzhi: 329
lugen: 402
lujiao: 255
nvzhenzi: 581
qingfengteng: 600
qinghao: 1093
qingpi: 166
ruxiang: 396
sangzhi: 1002
shijueming: 339
shouwuteng: 246
sumu: 339
tufuling: 166
yimucao: 1567
yinqishi: 598
zexie: 322
zishiying: 340

CH_names = ['白芷', '苍耳子', '赤芍', '川木槿', '葛根', '黄柏',
'使君子', '白茅根', '白术', '槟榔', '大血藤',
'杜仲', '茯苓', '干姜', '狗脊', '钩藤', '桂枝',
'海螵蛸', '合欢皮', '厚朴', '姜半夏', '荆芥',
'鸡血藤', '灵芝', '芦根', '鹿角', '女贞子', '青风藤',
'青蒿', '青皮', '乳香', '桑枝', '石决明', '首乌藤',
'苏木', '土茯苓', '益母草', '阴起石', '泽泻', '紫石英']

一张图片可以有多个标注对象，所以标注数量的总和不一定是图片的总和。

项目里实现了多种目标检测YOLO模型：

1.YOLOV5

2.YOLOV8

3.YOLOV10

4.YOLOV11

并且对YOLO模型做了优化改进

在我的设计的项目里，一般结构如下：

DateSet: 数据集相关的内容

Window：GUI演示系统

Window2：GUI演示系统

（提供了2种风格的演示系统，选择其中一种使用就行）

YOLOV5：YOLOV5模型代码

YOLOV8：YOLOV8模型代码

YOLOV10：YOLOV10模型代码

YOLOV11：YOLOV11模型代码

YOLOV11_Improve：YOLOV11模型和改进优化的内容

改进说明如下：

改进点1：使用深度学习可分离（DWConV）卷积代替主干网络中的传统卷积，减小参数量和计算量，使得模型轻量化。

常用的轻量化模型： MobileNet 核心就是这个

论文题目：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

改进点2：添加全维度动态卷积模块（Omni-dimensional Dynamic Convolution，ODConv）：

class ODConv2d(nn.Module):
    def __init__(self, in_planes, out_planes, kernel_size, stride=1, padding=1, dilation=1, groups=1,
                 reduction=0.0625, kernel_num=4):
        super(ODConv2d, self).__init__()
        in_planes = in_planes
        self.in_planes = in_planes
        self.out_planes = out_planes
        self.kernel_size = kernel_size
        self.stride = stride
        self.padding = padding
        self.dilation = dilation
        self.groups = groups
        self.kernel_num = kernel_num
        self.attention = Attention(in_planes, out_planes, kernel_size, groups=groups,
                                   reduction=reduction, kernel_num=kernel_num)
        self.weight = nn.Parameter(torch.randn(kernel_num, out_planes, in_planes // groups, kernel_size, kernel_size),
                                   requires_grad=True)
        self._initialize_weights()

        if self.kernel_size == 1 and self.kernel_num == 1:
            self._forward_impl = self._forward_impl_pw1x
        else:
            self._forward_impl = self._forward_impl_common

    def _initialize_weights(self):
        for i in range(self.kernel_num):
            nn.init.kaiming_normal_(self.weight[i], mode='fan_out', nonlinearity='relu')

    def update_temperature(self, temperature):
        self.attention.update_temperature(temperature)

    def _forward_impl_common(self, x):
        # Multiplying channel attention (or filter attention) to weights and feature maps are equivalent,
        # while we observe that when using the latter method the models will run faster with less gpu memory cost.
        channel_attention, filter_attention, spatial_attention, kernel_attention = self.attention(x)
        batch_size, in_planes, height, width = x.size()
        x = x * channel_attention
        x = x.reshape(1, -1, height, width)
        aggregate_weight = spatial_attention * kernel_attention * self.weight.unsqueeze(dim=0)
        aggregate_weight = torch.sum(aggregate_weight, dim=1).view(
            [-1, self.in_planes // self.groups, self.kernel_size, self.kernel_size])
        output = F.conv2d(x, weight=aggregate_weight, bias=None, stride=self.stride, padding=self.padding,
                          dilation=self.dilation, groups=self.groups * batch_size)
        output = output.view(batch_size, self.out_planes, output.size(-2), output.size(-1))
        output = output * filter_attention
        return output

    def _forward_impl_pw1x(self, x):
        channel_attention, filter_attention, spatial_attention, kernel_attention = self.attention(x)
        x = x * channel_attention
        output = F.conv2d(x, weight=self.weight.squeeze(dim=0), bias=None, stride=self.stride, padding=self.padding,
                          dilation=self.dilation, groups=self.groups)
        output = output * filter_attention
        return output

    def forward(self, x):
        return self._forward_impl(x)

全维度动态卷积（Omni-dimensional Dynamic Convolution，ODConv）算法是一种新型的卷积神经网络（CNN）架构。它通过动态调整卷积核的形状和大小，以适应不同的输入数据维度，从而提高模型的灵活性和性能。

灵活性：ODConv能够根据输入数据的维度动态调整卷积核，使得模型能够处理不同形状和大小的输入数据。

性能提升：通过动态调整卷积核，ODConv能够更好地捕捉输入数据的特征，从而提高模型的性能。

在配置文件中，用C_OD代替原来的C3k2，实现全维度动态卷积（Omni-dimensional Dynamic Convolution，ODConv）代替原来的传统卷积模块

总结：结合具体的检测场景去写，如果说场景里面有明显小目标的，可以倾向于写提升小目标特征提取能力，如果没有明显的小目标的，可以说提升模型的多尺度特征提取能力。

改进点3：添加卷积和注意力融合模块（CAFM）提升小目标和遮挡检测能力

CAFM 旨在融合卷积神经网络（CNNs）和 Transformer 的优势，通过结合局部特征捕捉能力（卷积操作）和全局特征提取能力（注意力机制），对图像的全局和局部特征进行有效建模，以提升检测效果。

在配置文件中，主干网络部分：用C_AT 代替原来的C3k2：

总结：

增强特征提取：通过结合卷积操作和注意力机制，CAFM能够有效捕捉局部和全局信息。卷积操作擅长处理局部特征，而注意力机制则善于建模全局信息。

改进信息嵌入：CAFM可以高效地在输入数据的不同部分之间进行信息嵌入和特征融合，从而对输入特征有更全面的理解。（提升遮挡检测的能力）

双向信息流：CAFM构建了双向信息流桥梁，允许输入数据的不同部分之间进行信息嵌入和特征融合，增强了模型的整体性能。

可以往，场景中目标存在一些遮挡的情况，往提升遮挡情况下的性能，这方面编。（如果没有遮挡，就直接说它提升模型的特征融合能力，增强性能）

class Bottleneck_AT(nn.Module):
    """Standard bottleneck."""

    def __init__(self, c1, c2, shortcut=True, g=1, k=(3, 3), e=0.5):
        """Initializes a standard bottleneck module with optional shortcut connection and configurable parameters."""
        super().__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Attention(c1)
        self.cv2 = Conv(c_, c2, k[1], 1, g=g)
        self.add = shortcut and c1 == c2

    def forward(self, x):
        """Applies the YOLO FPN to input data."""
        return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))


class C_AT(nn.Module):
    """Faster Implementation of CSP Bottleneck with 2 convolutions."""

    def __init__(self, c1, c2, n=1, shortcut=False, g=1, e=0.5):
        """Initializes a CSP bottleneck with 2 convolutions and n Bottleneck blocks for faster processing."""
        super().__init__()
        self.c = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, 2 * self.c, 1, 1)
        self.cv2 = Conv((2 + n) * self.c, c2, 1)  # optional act=FReLU(c2)
        self.m = nn.ModuleList(Bottleneck_AT(self.c, self.c, shortcut, g, k=((3, 3), (3, 3)), e=1.0) for _ in range(n))

    def forward(self, x):
        """Forward pass through C2f layer."""
        y = list(self.cv1(x).chunk(2, 1))
        y.extend(m(y[-1]) for m in self.m)
        return self.cv2(torch.cat(y, 1))

    def forward_split(self, x):
        """Forward pass using split() instead of chunk()."""
        y = list(self.cv1(x).split((self.c, self.c), 1))
        y.extend(m(y[-1]) for m in self.m)
        return self.cv2(torch.cat(y, 1))