宁波材料所在工业数据鲁棒特征选择理论方面取得进展
工业领域中调试设备或产品时得到的数据通常具有样本量小和特征维度高的特性,直接使用会导致模型过拟合和计算成本高昂。基于信息论的特征选择方法以互信息为基础评估最具判别能力的特征,具有更高的计算效率。然而,传感器串扰造成的测量噪声也包含在采集的特征中,会导致互信息的度量出现偏差,进而降低分类准确性。
中国科学院宁波材料技术与工程研究所精密驱动与智能机器人技术团队提出一种新的互信息度量来评估标签和含噪特征之间的相关性,并建立噪声扰动下的特征鲁棒选取准则,有效提高了工业领域高维小样本数据的分类准确率。该方法首先将特征中的噪声建模为零均值的截尾正态分布,通过最大熵原理获得噪声的方差和信息熵;随后建立噪声干扰下特征传输信道模型(如图1所示),提取并去除互信息中的噪声信息熵,从而建立噪声无关互信息度量。使用累积分布函数在给定置信度下估计噪声的最小值,从而得到特征传输前后最小值之间的差异,逆解得到发射特征的最大信息熵。最终,通过最大化候选特征与标签之间的噪声无关相关性,同时最小化候选特征与已选特征的平均冗余性建立特征选取准则(如图2所示)。在15个工业领域数据集上的实验结果验证了所提出方法在提高分类准确率方面的有效性(部分结果如图3、图4所示)。
本项目相关的科研成果以“Robust Feature Selection by Removing Noise Entropy within Mutual Information for Limited-sample Industrial Data”为题,发表在IEEE Transactions on Industrial Informatics(《IEEE工业信息学汇刊》)上(DOI:10.1109/TII.2025.3534417)。以上工作得到了国家自然科学基金(U20A20282、92048201和52127803)、浙江省重点研发计划(2023C01176)、浙江省自然科学基金(LD24E050010和LD22E050007)和宁波市重点研发计划(2023Z041)等项目的资助。
图1 噪声干扰下特征传输信道模型
图2 提出的特征选择方法流程图
图3 在12个数据集上的分类准确率(ACC为分类准确率,MNFR-MR为本文提出的方法)
图4 所选特征可视化(90%-30%分别为选取相应比例的特征,MNFR-MR为本文提出的方法)
(机器人与智能制造装备技术实验室 陈思鲁)