2026.4.23征图日记1(好累,好孤独,好难受)

早上mentor给了公司项目的测试环境的ip,让我熟悉一下

这个项目是对手机的外壳和中框等部件进行检测的,主要是检测是否有白划伤、压伤、异色、压痕等;底层是大模型进行检测;通过给图像模型样本(正负样本),对模型进行训练。当然我不负责样本标注,这个有其他实习生负责,hr当时说的是偏开发

上午还了解了一下django框架,下午了解了一下react,然后就在翻之前模型的训练数据

令人庆幸的是,公司的厕所是蹲便~

mentor下午还给我讲了一下他现在在做的东西,感觉很复杂,明天说是把代码跑起来,然后一起想一想交互逻辑(很难)

MVIMG_20260423_122446

MVIMG_20260423_193828

下班回宿舍,感觉好孤独,想找对象了~


如何优化模型识别能力,降低过杀率和漏检率?
优化样本集:

严格拆分数据集:按 7:3/8:2 随机打散划分,验证集必须完全没参与训练,且覆盖所有机型、光照、瑕疵等级扩充验证集多样性:验证集加入全新产线、不同反光、不同纹理、极细微瑕疵的陌生图片,考验模型真实眼力

大规模数据清洗:剔除标错、模糊、无效样本,统一良品 / 不良品标注口径

数据增强:训练时随机做亮度微调、轻微噪声、小角度偏移、轻微模糊,模拟产线真实光影变化,防止模型死记硬背图片

样本均衡:保证划伤、压伤、异色、良品各类别数量匹配,避免模型偏心

优化训练策略(防止过拟合):

加入早停(Early Stopping):监控val_loss,连续多轮不下降就立刻终止训练,避免过度学习
动态调整学习率:前期大步快速学、后期缩小步长精细收敛,避免验证指标剧烈震荡
加入正则化约束:Dropout、权重衰减,强制模型不能只记无关细节,必须学通用缺陷特征
合理控制训练轮次:不盲目堆 Epoch,找到收益最高点就停下

模型与任务适配
选用工业缺陷专用骨干网络(fsnet),而非通用大模型,天生更适配手机金属 / 塑胶表面细微瑕疵
精简模型容量:模型太大、能力过强就容易死记硬背,适度裁剪后泛化性大幅提升
优化损失函数:针对区域分类、瑕疵区分的业务场景定制,而不是通用分类损失

业务标准对齐
统一「什么算真缺陷、什么是正常纹理」的判定标准
提前对齐产线对过杀率、漏检率的容忍底线,模型训练目标和真实生产需求完全匹配

另外:消费电子外观瑕疵没有公开通用数据集,所有优质数据必须自己在产线长期积累
手机中框 / 外壳的白划伤、暗压痕,人眼都极难分辨,标注标准统一难度极大,要做到「见过的、没见过的机型都稳定」,普通通用 AI 根本做不到,跨产线、跨光照、跨新机种还能稳定,是 90% 工业 AI 团队跨不过的坎

增强用哪些组合、正则加多大、什么时候降学习率、早停阈值怎么设,全是工业视觉项目长年踩坑积累的实战经验,书本理论解决不了
漏检太高 → 不良品流到市场,客诉、巨额罚款
过杀太高 → 大量良品报废,产线产能崩溃、成本暴涨
精准拿捏二者平衡点,是顶尖工业 AI 方案的核心竞争力