2 - 练习文章 - 在线打字练习（dazi.91xjr.com）

目前常用的目标检测算法包括一阶段的检测和二阶段的检测。其中二阶段的检测算法是预先给出一些候选的目标检测框，之后
再对候选框进行筛选处理获得最后的目标框，RCNN系列的算法便是两阶段的目标检测算法。一阶段的检测算法则不需要目
标候选的阶段，而是直接产生目标位置的坐标及其类别和概率，其中代表算法是YOLO系列。经过连续优化，YOLOv5
已在工业领域成为最广泛采用的先进算法[14]。如图1所示，YOLOv5网络包括五大核心部分：输入端、主干特征
提取网络（Backbone）、增强特征融合网络（Neck）、检测头（Head）和输出端。YOLOv5 采用三种
数据增强技术设计，包括缩放、色彩空间调整和数据集增强。在数据集增强线路中，系统随机抽取4张图像，以自适应缩放、
编辑、分布等方式，增强小目标特征表达，提升小目标检测效果。在YOLOv5的结构设计过程中，引入了两个CSP结构
。在YOLOv5s 网络中，CSP1_X结构排列在主干中，颈部部分应用另一种CSP2_X结构，进一2步增强特征
的融合能力，旨在提高模型的性能改进的YOLOv5目标检测模型在通用目标检测中，所有目标的权重都是一样的，但在太
阳能电池板的检测中，各种缺陷之间存在重要性差异，且缺陷之间具有关联性。往往一张图片可能出现多个类型的缺陷[15
]。因此，为了实现太阳能电池板的小目标、多种类缺陷的高精度、轻量化检测与分类，本文对现有模型算法进行改进和优化
，改进后网络结构图见图2 激活函数传统的YOLOv5 一般使用 LeakyReLU 作为激活函数。作为 ReL
U 的一个迭代，LeakyReLU 在输入信息特征小于0时仍然可以输出一个有限小量，而不是直接输出0。这种函数
可以减小神经元学习中的部分特征缺失，提高了模型的适应性。LeakyReLU激活函数表达式如式（1）所示。式中通
常为斜率参数，通常取值为0.01或0.05。但是LeakyReLU 在用于太阳能电池板缺陷检测时，由于梯度消失
和梯度爆炸问题，训练速度较慢，检测精度不高[16]。因此本文选择了SiLU激活函数[17]替换到网络结构之中。
在零点附近，SiLU具有更均匀的属性和可导性，对于梯度计算和更新、加速模型的收敛非常有帮助。此外，SiLU还引
入了许多非线性属性，进一步提高了模型的泛化性能，这对缺陷检测模型准确度的提升非常有帮助。SiLU激活函数表达式
如式（2）所示。主干特征上采样网络在YOLOv5s的特征网络中运用了最近邻插值来进行上采样。而最近邻插值依赖
像素点的空间位置来确定采样点，只关注亚像素级别的相邻像素，而未能充分利用特征图的神经元信息，忽视了在密集检测场
景中至关重要的语义信息（密集检测场景指的是场景中存在大量微小物体目标或大量无效信息干扰的情况）。这一过程经常导
致灰度值不连续和图像质量下降，从而影响对微小物体目标的检测能力[18]。轻量级内容感知特征重组（CARAFE）
[19]（见图23），首先根据每个表达特征确定目标位置，采用内容感知算法，感知目标内容预测一个重组核，之后将预
测的核进行特征重组。将生成的重组对象利用加权组合聚合成更大的空间区域。这个空间区域可以视为由多个特征点组成的空
间簇。这种重组可以将多个特征点的信息汇聚到一起，从而提供更多的目标信息，可提高对象地图中微小目标的检测能力。因
为空间簇提供了更多的信息，算法可以更准确地定位和描述目标的位置和形状，从而优化亚像素级目标的检测。在分层对象架
构中，CARAFE可以便捷地以2倍的频率对对象地图进行采样，从而轻松集成到PAFPN中，取代近邻插值。CARA
FE 具有最小的冗余、强大的对象集成能力和高效的运行机制。它可以轻松集成到现有结构中，无需额外改动。这样，CA
RAFE算法可以提高目标检测的精度和召回率，特别是对于小目标或低分辨率的图像。因此，CARAFE算法运用到太阳
能电池板缺陷检测中可以提高检测模型的轻量化、准确性主体网络C3TR模块在原始的YOLOv5模型中，C3模块在结
构上起着至关重要的作用，均采用了CSP架构。尽管在修正单元的选择上存在差异，但其核心构成均包含三个标准卷积层，
其数量由配置文件yaml中的n和depth_multiple 参数共同决定。这一模块是学习和提取残差特征的关键
组成部分，其结构一分为二：一支由多个指定的Bottleneck堆叠而成，另一支则仅通过一个基础卷积模块进行处理
。最终，这两支路径的输出将进行concat操作，以融合不同路径的特征信息。为了进一步提升模型的特征表达能力和检
测精度，本文引入了BottleneckTransformer模块来替换主干网络中的原有C3模块，从而形成了C3
TR[20]模块。作为C3模块的一种变体，C3TR模块（图4）在保持原有结构的基础上，引入Transforme
rBlock来替换原有的Bottleneck 结构。 C3TR 模块的关键结构组件包括：Convolution
alBlock：包含多个卷积层，用于从输入数据中提取关键的特征信息；CrossStagePartialConn
ection：通过将前一层特征图的部分信息与当前层的特征图进行相加，从而增强模型的特征表达能力；SPP(Spa
tialPyramidPooling)：通过在不同的空间尺度上提取特征信息，进一步增强模型的特征检测能力；Co
ncatenation：将来自不同路径和尺度的特征信息进行拼接，以生成包含更丰富信息的最终特征图。通过引入C3
TR模块，太阳能电池板缺陷检测模型的特征读取能力和检测精度得到了显著提升。注意力机制在处理多特征目标和复杂场景
时，由于通用目标检测对所有目标的权重相同，本文加入注意力机制，来增强模型对特征的重要性识别能力。结合注意力机制
CBAM[21]的卷积神经网络在工业生产中具有较高的准确率和性能，本文将CBAM注意力机制（图5）添加到网络结
构Backbone和Head之中，更好地表达出图像中重要的特征信息，提高检测的准确性。 CBAM将通道注意力（
图6）与空间注意力（图7）相结合。它可以对特征图的通道进行加权调整和改变特征的空间位置，以生成较合理的权重分布
。使用CBAM机制检测太阳能电池缺陷具有明显优势，CBAM的聚焦机制可以对关键特征进行重复表达，同时抑制背景信
息等中间因素的影响。其中，通道的注意力机制通过测量不同通道之间的特征，提高了模型对不同通道独特特征的理解度。空
间注意力机制通过对不同空间位置的特征进行加权运算，来提高模型对空间位置的重要性。通道、空间注意力机制的公式如下
。式中激活函数表示输入特征结构位置的特征。式中图（X）经过全局平均池化表示输入特征为最大池化后的结果。这种注意
力机制可以捕捉缺陷的上下文语义信息，并聚焦于关键特征区域，从而提高模型对不同类型缺陷（尤其是微小目标）的识别能
力。控制和维修提供更有力的帮助。