| 基于成分引导的多模态自蒸馏食品图像分割/中国食品科学技术学会
科技进展
山东师范大学侯素娟教授、中国科学院计算技术研究所闵巍庆副研究员等 | 基于成分引导的多模态自蒸馏食品图像分割
2024-12-31 新闻来源:《中国食品学报》 浏览人次:0

  本期介绍山东师范大学侯素娟教授、中国科学院计算技术研究所闵巍庆副研究员等发表在《中国食品学报》第24卷第11期特约专栏(人工智能+食品)上的文章《基于成分引导的多模态自蒸馏食品图像分割》。

 

食品是保障人类生存、生长发育和健康的重要物质基础。随着生活水平的提高,公众对健康管理和食品质量的要求越来越高,食品计算相关的研究也因此不断涌现。许多与食品相关的应用如食品的自动识别、营养成分分析等,都是在完整分割食品菜品目标的基础上完成的。作为食品计算的核心任务,食品图像分割是指利用计算机视觉技术,从1张图像中分离出食品区域的过程,这一过程不仅包括对食品项的准确识别,还涉及高分辨率下的像素级定位。精准的食品分割对实现食品种类的细粒度识别、膳食健康评估以及开发健康相关的应用具有重要研究价值。然而,食品图像具有以下特点:(1)同一食材在不同加工状态不同烹饪方式下呈现形态多样性(图1a):由于食品外观具有多样性并缺乏刚性结构,同一食品成分在不同加工状态或不同烹煮方式处理后呈现出形态多样性,特别是对于那些形状不规则、对比度较低、缺乏明显颜色或纹理特征的食品项,这种情况更为显著;(2)食品间的前、后和上、下重叠(图1b):食品间因堆叠或摆放而导致的重叠;(3)胡萝卜同类之间存在较大的差异性,桃子和芒果不同类之间存在相似性(图1c):较高的类内差异性和类间相似性。上述特性给食品图像的精准分割带来较大的挑战。

 

image

图 食品图像分割面临的挑战

因此,本文提出一种多源信息融合的自蒸馏网络。本研究的核心在于引入了成分信息引导的多模态自蒸馏分割模型。具体而言,模型在训练过程中,不仅使用图像信息,还结合了与图像相关的食品成分信息(如“wine”“pork”“potato”等)。这些成分信息经过CLIP模型编码后,与图像特征进行融合,提供了更丰富的上、下文信息,帮助网络更好地理解和分割食品图像。为了进一步提高分割精度,本文设计了自蒸馏机制,在训练过程中,学生模型通过KL散度从教师模型中学习多模态知识。这样,即使在推理阶段只有单一的图像输入,模型依然能够借助成分信息的指导,提升分割的精度和细粒度。

 

image

图 模型整体架构

本研究在两个公开的食品图像分割数据集上对该模型进行了评估:FoodSeg103数据集和UEC-FoodPIX Complete数据集。本研究的方法在FoodSeg103数据集上取得了47.93%的mIoU,相较于目前最优的FoodSAM模型,提升了1.51个百分点;在UEC-FoodPIX Complete数据集上的mIoU达到75.13%,超越了FoodSAM模型8.99个百分点。

 

image

图 FoodSeg103数据集可视化结果

试验结果显示本文模型在实际应用中具有良好的应用性能,即对食品图像的语义分割,在性能上超越了现有的方法。本工作验证了成分信息对分割任务的有效指导作用,提升了分割精度,为食品图像分析提供了新的解决方案。


原文链接:https://kns.cnki.net/kcms2/article/abstract?v=upp0mjVwiKWhpjypXk-R2XlSFHnqMl8GOw0ZJvQlQmq36Dxs9A-9UPFdXOVDD8Ju9EoDyP1slfkv0FYIiqTWyip3IjOKElTHHd8Jt7kE75LwBS5KKUvJVa_A4tcX6sBegBLR9IpY-s3RDTuVwQZVVNG_OBeZa2IUltWUk2nq_PZl-Ganu6GbETijD7vZnRm4tR82djlqMFY=&uniplatform=NZKPT

Start at 2015-10-19 10:30 AM
Baidu
map