过刊目录

  • 2022年, 43卷, 第4期
    刊出日期:2022-04-14
      

  • 全选
    |
  • 赵海燕,曹杰,陈庆奎,曹健
    2022, 43(4): 673-683.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层次多标签文本分类的研究现状进行了系统化的总结.目前的方法从是否使用层次结构可以分为平面方法和层次方法,而层次方法又可以分为局部方法、全局方法和混合方法.这些方法包含了使用不同技术的多种模型.文中还分析了层次多标签文本分类任务的挑战和难点,并对本领域未来的研究方向进行了展望.
  • 吕欢欢,马宏伟,王璐,杨东强
    2022, 43(4): 684-694.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    幽默计算研究致力于利用计算机方法理解和识别幽默表达,挖掘幽默潜在的语义内涵,构建面向幽默的计算模型,实现幽默的自动识别和生成,提升人机交互智能程度.在开发基于幽默计算的人工智能系统的需求日益凸显的趋势下,通过文献调研方式进行幽默识别综述.首先,重点研究了幽默特征的提取方法;其次,从数据和方法两个维度总结了文本幽默识别的研究进展.归纳常用数据集的收集标注过程及特点,系统地对比了包括基于传统机器学习和基于深度学习的文本幽默识别方法;最后,对幽默识别领域的相关研究进行了总结与展望.
  • 王泽松,曾诚,肖奎
    2022, 43(4): 695-701.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    在一个专业的课程体系中,课程与课程之间通常有着固定的学习顺序,前导课程中总是包含了一些后续课程所需要的背景知识,这种现象是由不同课程的知识概念间依赖关系引起的.本文提出一种课程概念依赖关系挖掘方法,同时利用课程属性与维基百科属性设计特征,识别课程概念间的依赖关系.为了验证提出方法的有效性,在公开数据集上进行实验,本文方法在各度量指标上表现均优于其它基准方法.在此基础上,利用课程概念依赖关系建立了概念图,通过对比不同大学相同专业的概念图来分析它们的课程体系的差异.
  • 黄剑柔,王茜,蔡星娟,李建伟
    2022, 43(4): 702-706.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    在基于聚类的DBSCAN离群点检测算法中,存在参数Eps的不确定性和全局统一性问题.因此,本文首先提出了一种基于多目标优化的自适应DBSCAN离群点检测算法,根据不同数据集的特点,通过NSGA-II优化算法为数据集中的每个数据自适应地求解一个最优Eps,不仅避免了人为经验设置参数的不足,还解决了全局参数带来的聚类不精确问题.其次,通过基于Eps的LOF算法进行离群点检测,减少了计算量.最后,通过在不同数据集下的实验对比,结果表明本文提出的算法对于检测离群点有更高的准确率.
  • 张金鹏,钱慧,王仁平
    2022, 43(4): 707-711.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法是压缩感知系统中应用最广泛的重构算法之一.OMP算法中的最小二乘(Least Squares,LS)问题涉及到矩阵求逆运算,是计算复杂度最高的部分.本文提出了一种近似OMP算法,通过优化最小二乘问题提高重构速度,更利于硬件实现.设计了一种基于FPGA的近似OMP算法的硬件实现架构,主要包含计算模块、存储模块和控制模块3个部分,利用Xilinx公司的Vivado软件进行综合仿真实验.对比现有相似实现设计,本文设计的架构通过调用更多的DSP资源减少了slices资源的使用量,在208MHz频率下重构速度提升了1.25-1.72倍,同时具备一定的可扩展性.
  • 李浩君,岳磊,张鹏威,杨琳
    2022, 43(4): 712-722.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    形成既能满足教师教学实施需求,又能得到学习者认可的在线学习群体是影响在线协作学习效率的重要因素.多目标粒子群算法和遗传算法应用于在线学习群体形成领域是目前的研究热点.然而,利用多目标粒子群算法解决在线学习群体形成问题时存在多样性差,容易陷入局部最优等问题;运用遗传算法解决在线学习群体形成问题时,则需要以耗费大量时间为代价.针对以上问题,提出了多目标优化视角下在线学习群体形成方法:首先根据学习者的多维个性特征建立在线学习群体形成MOLGFM模型(Multi-objective Online Learning Group Formation Model),其次针对形成模型的多目标优化特征,将多目标粒子群算法和遗传算法相结合提出了GAMOPSO(Genetic Multi-objective Particle Swarm Optimization)算法,最后采用GAMOPSO算法求解MOLGFM模型,提出多目标优化视角下的在线学习群体形成方法GAMOPSO-FA(Genetic Multi-objective Particle Swarm Optimization-Formation Approach).实验表明,相比采用经典算法的在线学习群体形成方法,所提GAMOPSO-FA方法形成的在线学习群体符合度更高,形成速度更快.
  • 杨志婥琪,周兰江,周蕾越
    2022, 43(4): 723-730.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    老挝语属于低资源语言,文本语料稀缺使得老挝语自然语言处理的基础任务难以开展,而老挝语的光学字符识别研究在一定程度上能解决语料匮乏的问题.该文提出一种融合老挝语词法、字符向量等文本特征的老挝语文字识别方法.首先,该方法以具有残差结构的卷积神经网络为主干,加入卷积注意力模块,以提取老挝文字图片的图片特征信息;其次,通过注意力机制动态分配权重组合图片特征信息与Glove预训练的词向量及字符向量;再有,用双向长短期记忆网络编码组合特征,以预测老挝文字序列标签的真实分布,同时,融入老挝音节组成规则,以预测音节规则标签分支优化老挝文字识别模型;最后,采用连接时序分类对标签分布进行序列对齐.实验结果表明,该方法取得了较好的老挝文字识别效果,准确率达到了88.63%.
  • 张亚明,高忠萍,高祎晴,刘海鸥,
    2022, 43(4): 731-740.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对目前融合显隐式反馈的推荐算法发展仍存在显式反馈数据利用不合理、隐式反馈缺乏负反馈样本等问题,本研究基于融合显隐式反馈的SVD++算法和针对正负反馈的PSVD算法的核心思想,根据全反馈思想进行正负反馈层面上的尝试,利用基准预测思想在显隐式反馈中建立正负反馈的区分标准,优化显式反馈对于获取正负样本的评价公式,建立隐式反馈区分用户偏好的计算标准,重新构建用户与推荐对象之间的评分预测模型,提出一种新的融合显式反馈和隐式反馈的协同推荐算法PNF_SVD++.实验结果表明,PNF_SVD++算法在验证评分预测准确性的指标上数据表现较好,其可行性和有效性得到充分验证,同时为融合显隐式反馈的协同过滤推荐算法提供了新的研究思路.
  • 袁健,章海波
    2022, 43(4): 741-746.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    中文由于词边界模糊,字符信息获取不足等问题,使得中文实体识别较为困难.论文针对汉字的象形文字特点,提出一种结合字形特征的增强字符信息算法,该算法利用卷积神经网络和BERT模型得到增强字符向量;同时提出多粒度融合嵌入算法,利用注意力机制将增强字符向量与词向量融合,最终构建出多粒度融合嵌入的中文实体识别模型.实验表明,该模型在中文实体识别中优于其它常用模型.
  • 齐嵩喆,黄贤英,朱小飞
    2022, 43(4): 747-753.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    方面级情感分析的目的在于判断文本在不同方面的情感极性.以往的研究大多集中在基于无权的句法依存树来构建网络模型.由于方面词和非方面词的句法依存关系对于目标情感的重要性是不同的,提出了基于权重增强并结合图卷积的神经网络模型(AW-IGCN).通过带权矩阵来储存更完整的句法结构,同时利用GRU来获得上下文信息,并输入到改良的图卷积网络来进行特征融合,最后运用注意力机制进行最终的分类.通过在5个开放数据集上的实验表明,该模型取得了更好的分类效果,进而验证了权重增强的句法依存关系和改良的图卷积网络可以更好地融入句法和上下文信息,在方面级情感分析领域有一定的优势.
  • 刘子龙,窦鹏程
    2022, 43(4): 754-758.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    四旋翼无人机是一种非线性、强耦合、欠驱动系统.针对四旋翼存在参数不确定性和外部干扰等问题,本文提出了一种基于反步积分-迭代学习控制和自抗扰控制的位置-姿态控制算法.对于双闭环控制系统,内环采用自抗扰控制,通过扩张状态观测器可以实时观测和补偿内部耦合等建模时参数不确定性项和外部随机干扰.外环采用反步积分-迭代学习控制,因为反步法可以很好的进行轨迹跟踪但特别依赖模型的精确度且缺乏抗干扰能力,与迭代学习控制有机结合后,使得系统在有限时间内跟踪性能得到提高.仿真试验实现了四旋翼位置和姿态的跟踪控制,验证了所提控制算法的有效性.
  • 高丽萍,程添,高丽
    2022, 43(4): 759-766.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    物联网蓬勃发展促使空间众包广泛应用,其任务分配主要依赖中心化平台,而中心化服务器一旦受到分布式拒绝服务攻击,众包系统将完全瘫痪.此外,在众包应用中,任务分配的合理性,高昂的平台服务费,隐私保护策略也需要同时考虑.本文提出了一种区块链环境下的空间众包任务分配模型.利用去中心化的区块链取代原有的中心化平台,构建了投标分数阈值动态变化的拍卖模型进行任务分配,同时基于密文策略的属性加密实现细粒度授权,加强任务内容的隐私保护.本文在私有链下使用真实数据集进行试验,并与现存的空间众包模型做了对比分析,实验结果表明,本文提出的模型在任务分配时总路径更短,花费成本更低,更具有合理性.
  • 杨瑞君,何立君,程燕
    2022, 43(4): 767-772.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    自动构建工控系统入侵检测机器学习模型的过程中,针对基于树的管道优化工具(Tree-based Pipeline Optimization Tool)TPOT需要消耗大量时间和计算成本的问题,提出了一种分布式D-TPOT改进方法.该方法通过引入分块算法和动态任务调度能够使TPOT并行化构建工控入侵检测模型,以减少构建模型的时间.通过改变保留管道数和管道迭代次数的模型构建过程,在测试集中增加了15种训练集中未出现的攻击方式进行模型评估.实验表明,与TPOT相比,分布式D-TPOT在不降低构建入侵检测模型指标质量的情况下,D-TPOT构建的最佳模型在多项评估指标中,准确率为:92.89%、精确率为:94.66%、F3-Score为:92.45%,同时能够节省50%的模型构建时间.
  • 贾慧娟,刘园,史爱静,张霄宏
    2022, 43(4): 773-778.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对COPRA算法因在标签更新过程采用随机策略而导致的重叠社区划分结果不稳定问题,本文对COPRA算法进行了改进,提出了一种简单的重叠社区发现算法.该算法仍采用同步的方式传播标签,但只在以边缘节点为中心的桥梁节点群内进行标签传播,以此提升发现重叠社区的速度.该算法还引入了节点连接社区强度,利用其降低标签更新过程中的随机性.此外,引入节点连接社区强度,还可以防止标签的过度传播.在真实网络和人工合成网络上的实验结果验证了本文方法的正确性和有效性.
  • 陈铁明,董航
    2022, 43(4): 779-784.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    随着工业4.0时代的到来,工业资源、数据和互联网关系越来越紧密.然而,大量信息技术的使用也给工业控制系统(ICS)带来了巨大的隐患.随着各种攻击手段的增加,现有的异常检测方法存在着很多局限性,无法有效识别各种攻击.鉴于上述情况,本文提出了一种基于蚁群算法和强化学习的工业异常入侵检测方法.使用蚁群算法进行特征选择,通过多次迭代消除无关、冗余特征,使其适合于模型处理并提高训练速度.该算法在选择特征子集的过程中具有较快的收敛性,可以避免盲目搜索并快速找到最优解.本文对深度强化学习的范式进行修改,利用其反馈学习和决策的能力,对不同类别的攻击进行分类.本文使用密西西比州立大学设计和开发的天然气管道测试平台SCADA系统收集的真实数据对模型进行评估.实验结果表明,该方法可以满足对检测攻击的需求.
  • 朱栋,殷新春,
    2022, 43(4): 785-794.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    车载自组网通过车辆与路边基础设施共享交通信息,从而提供各类安全服务,改善了人们的出行体验.但是,车载自组网中的通信安全和车辆的隐私保护等问题亟待解决.针对这些问题,首先,证明Thumbur等人的方案无法抵抗公钥替换攻击.其次,基于零信任架构提出一种适用于车载自组网的无证书签名方案,该方案中的可信中心与车辆通过公共信道协同产生公私钥对,摆脱了对安全信道的依赖.该方案在随机预言模型中基于椭圆曲线离散对数问题具有不可伪造性,并且满足匿名性和可追踪性等安全和隐私保护需求.性能分析表明,与其他相关方案相比,该方案在减少签名与验证的计算开销的同时降低了通信开销.
  • 周恩帆,马俊,周永杰,王欠欠,陈博行
    2022, 43(4): 795-800.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对多传感器网络中采集的数据存在的不确定性,提出了一种基于D-S证据理论的多传感器数据融合算法.该算法分同类数据融合和异类数据融合两步,首先对多传感器得到的数据取特征值,通过计算同种数据间的距离,得到信任函数并设置阈值剔除异常值,将得到的正常同类数据进行初步融合.其次,计算异类数据与各等级特征值间的距离,对得到的距离求支持度函数,进行基本概率分配,按照证据理论得到融合结果.经仿真分析得,该方法能够有效处理D-S理论中的冲突问题,从而得到较为准确的融合结果.
  • 王宇波,施伟斌,和梦琪,乐燕芬
    2022, 43(4): 801-806.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    在基于喷泉码的代码分发协议中,通过设置冗余分组提高解码成功率.本文研究了最优分块冗余长度选取的问题,理论分析和实验结果表明,满足最小通信量条件的最优分块冗余长度与分组丢失率有关.在典型的室内干扰条件下,最优分块冗余长度与分组丢失率呈正相关性,当分组丢失率上升时,增大分块冗余长度能减小数据通信量.在以CC2430为核心的平台上实现了基于喷泉码的代码分发协议及其改进版本,在改进版本中加入了自适应调整分块冗余长度的机制,在实际环境中对改进的代码分发协议进行了性能评估实验,实验结果显示,与现有协议相比,通过动态调整分块冗余长度能减少约15.3%的通信量,分发时间也明显缩短,从而有利于延长无线传感器网络的生存期.
  • 张祥祥,吕学强,韩晶,游新冬,张凯
    2022, 43(4): 807-814.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对当前文档图像透视变形矫正算法抗干扰性差,矫正效果不佳等问题,本文提出一种基于BRISK特征点检测与匹配的文档图像矫正算法,称之为模板图像匹配矫正算法(Template Image Matching Rectification,TIMR).该算法仅需制作目标领域内的单张矫正模板图像,并结合BRISK算法与本文提出的双重特征点过滤算法实现该领域所有透视变形文档图像的矫正处理.其中,双重过滤算法包含特征点先验过滤(Prior Filtering,PF)与特征点迭代匹配过滤(Iterative Matching Filtering,IMF)算法,有效地过滤掉了矫正模板图像中的无关特征点与不稳定特征点,实现特征点匹配与TIMR算法的加速.在特定的医疗领域的检验单文档图像数据上进行矫正测试,并与当前主流矫正的算法与商业软件进行了比较.实验结果表明,本文算法具有使用简单方便,鲁棒性强,矫正效果好和矫正速度快等特点.
  • 骆文莉,吴秦
    2022, 43(4): 815-821.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    卷积神经网络在自然场景文本检测中的应用,大大提高了文本检测的准确性.但由相机视角和文本本身引起的尺度多变性以及文本分布的多样性仍然给文本检测带来了挑战.从解决文本尺度多变性的角度出发,本文提出了一个新的多层次特征融合模块,在特征金字塔融合不同层级特征的同时,额外添加了一个空洞卷积池化模块分支,在不降低特征尺度的同时拥有不同的感受野,获取了更丰富的特征,有利于缓解文本尺度多变性的问题.本文通过特征注意力机制进一步提取更加适合于文本的特征,有效地实现了不同通道间信息的交互,缓解了因文本分布多样性而带来的检测难题.本文进一步提升了文本检测器的准确率,在ICDAR2015,CTW1500,Total-Text,MSRA-TD500这四个数据集上的实验结果证明了本文所提方法的有效性.
  • 陈辛怡,孙涵
    2022, 43(4): 822-827.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    深度学习在图像分类上的准确度很大程度上依赖于大量的标记数据,无监督域适应已经被证明是一种有效的方法去解决一个新的无标签域上的任务,其主要思想是利用有标签的数据集作为源域,通过减少源域和目标域之间的差异,将源域训练的预测模型应用于目标域.本文提出了聚类中心对齐的无监督域适应方法CADA,将语义对齐方法与传统对抗域适应相结合.CADA首先在对抗训练中对齐两个域的特征空间的边缘分布,再经过对源域特征的中心增强操作,以及集成分类器为目标域样本分配伪标签,最后将源域中心和伪标注后的目标域中心进行对齐,达到语义迁移的效果.本文在office-31以及数字数据集上进行了实验,并与多种域适应方法进行了对比,结果表明CADA可以有效提高域适应效果并且在不同的应用场景中表现优异.
  • 刘慧,姜雨汐
    2022, 43(4): 828-833.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对传统粒子滤波算法造成的粒子退化和多样性丧失问题,提出一种融合分数阶和蝴蝶优化的改进粒子滤波算法.在粒子采样阶段引入分数阶,根据分数阶的历史记忆特性,可以有效解决粒子多样性丧失问题;在搜索阶段引入蝴蝶优化算法,有效解决粒子退化问题;把Lévy飞行与蝴蝶优化算法相结合,能避免出现局部最优.最后,将提出的改进算法与传统粒子滤波算法和融合蝴蝶优化的粒子滤波算法进行仿真对比,并分析其定位误差和算法的处理时间.实验结果表明,融合分数阶与蝴蝶优化的改进粒子滤波算法误差较小,运算效率较高.对实际室内移动机器人的定位系统应用具有一定的理论价值和指导意义.
  • 王振,杨珺,邓佳莉,谢鸿慧,黄聪
    2022, 43(4): 834-840.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    为解决Deeplab v3+网络在解码过程中仅融合一个尺度编码特征,导致部分细节信息丢失,从而造成最终分割结果较为粗糙等问题,提出多尺度特征自适应融合的图像语义分割算法.该算法在Deeplab v3+的解码过程中使用自适应空间特征融合结构,给不同尺度的编码特征分配自适应的融合权重,通过融合编码过程中的多尺度特征进行特征图的上采样,从而实现图像更加精细的语义分割效果.实验结果表明,该算法在Cityscapes数据集上达到了95.05%的像素准确度和69.36%的平均交并率,且对大部分小尺度目标物体的分割更为精准;在Vaihingen遥感图像数据集上本文提出的算法达到了83.49%的像素准确度和68.77%的平均交并率,进一步验证了本文改进算法的泛化性.
  • 李烨,邹铭
    2022, 43(4): 841-846.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    当前许多目标检测算法在非极大值抑制过程中基于分类置信度对检测框排序,但由于分类置信度与定位准确度没有一致性,通常会影响检测器的定位性能.对此提出一种基于定位置信度预测的二阶段目标检测方法,为Faster R-CNN框架添加定位置信度预测分支,对分类、边界框回归和定位置信度3个分支进行联合训练,进而将检测框的定位置信度与分类置信度相融合,设计了基于融合分数的非极大值抑制后处理算法.此外,为定位置信度预测分支设计一种新的基于GIoU非线性变换的定位置信度指标,增大高GIoU检测框之间的定位置信度差异,以利于非极大值抑制过程中重复检测框的筛选.在交通场景人车检测数据集上的实验结果表明,所提方法获得了2.4%的AP提升,特别是AP85和AP95有2.7%~4.3%的提升,对于需要高定位性能的应用场景具有很大的实际意义.
  • 王志愿,雒江涛,李伟生,徐正,文韬,许国良
    2022, 43(4): 847-851.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    车辆再识别(Re-identification)是计算机视觉领域的研究热点之一,其关键在于车辆辨别性特征的提取.为了更好地提取此类特征,本文提出了一种基于全尺度和注意力融合学习的特征提取方法,该方法通过多个感受野获取不同尺度的特征,并将提取到的不同尺度特征融合;同时为了在特征提取过程中重点关注辨别性特征,特引入注意力机制,增强特征的表达能力.经实验证明,该方法在VeRi-776主流数据集上的Rank-1和mAP均优于其他主流方法.
  • 滕少华,袁萧勇,张巍
    2022, 43(4): 852-857.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    从彩图/照片生成素描,其生成素描图像的轮廓、阴影与铅笔素描画相比不够清晰,精准度也不高.由于素描笔画类型多样,阴影结构复杂.为此,本文提出了一种人脸照片到铅笔画的转换方法,设计并实现了一个双分支训练生成对抗网络模型,其轮廓分支提高生成素描图像的轮廓清晰度;另一阴影分支处理素描的纹理与阴影部分,并且保持素描画的风格.最后,本文对不同类型的素描风格转换进行了实验,结果表明提出的方法比现有方法有更好的素描生成效果.
  • 孙毅,陈哲,冉丹,杨志斌
    2022, 43(4): 858-864.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    安全关键领域的反应系统大都采用同步语言开发,然而,学术界尚不存在SCADE同步语言程序的形式化验证工具,为此,本文提出了一种自动验证SCADE同步语言程序安全属性的方法.首先使用无量词一阶逻辑公式对SCADE同步语言程序的行为进行建模,可将SCADE同步语言程序的安全属性的验证问题转化为无量词一阶逻辑公式的可满足性问题;然后采用先进的可满足性模理论求解器对其可满足性进行求解.本方法旨在实现对SCADE同步语言程序进行自动地、直接地验证,以填补SCADE同步语言程序验证领域的技术空白.此外,本文对所提方法进行了代码实现,并通过实验验证了所提方法的有效性.
  • 陈丽琼,王璨,宋士龙
    2022, 43(4): 865-871.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    即时软件缺陷预测是保障软件安全与质量相统一的必要途径,在软件工程领域受到越来越多的关注.然而,现有数据集存在特征冗余和特征相关性低的情况,极大影响了即时软件缺陷预测模型的分类性能和稳定性.此外,分析缺陷数据特征对模型的影响尤为重要,但如今对软件缺陷预测模型进行解释性研究较少.针对这些问题,文章基于6个开源项目的227417个代码级变更的大规模实证研究,创新性地选择了SHAP+SMOTEENN+XGBoost(SHAP-SEBoost)构建即时软件缺陷预测模型.首先通过SHAP(SHapley Additive exPlanation)模型可解释器分析初始数据集特征,并根据分析结果对数据集进行相应的特征选择与组合.然后,利用SMOTEENN对类不平衡的缺陷数据进行正负样本均衡化,使用集成学习算法XGBoost对实验数据进行预测建模.最后,使用SHAP对本文模型进行可解释性分析.实验结果表明SHAP-SEBoost有效地提高了分类性能,与基线模型以及近年优秀模型相比AUC平均提高11.6%,F1平均提升33.5%.
  • 殷瑞笛,吴海涛,高建华,黄子杰
    2022, 43(4): 872-881.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    测试异味是软件测试中存在不良设计和不良实现的征兆.以前的研究表明,测试异味的存在与生产代码的缺陷倾向有着明显的关联,而最近的研究表明,测试相关的因素可以作为软件代码质量的可靠预测特征.本文在原有的即时缺陷预测模型中加入测试异味这一新角度的特征,构建包含代码度量、过程度量和测试异味3不同角度的特征数据集,涉及从代码编写到代码测试再到后期维护的全过程.本文在5个系统中实验并对比了新模型与旧模型的性能,以探究测试异味对即时缺陷预测模型效果的提升,并用可解释性人工智能算法衡量特征重要性.结果显示,加入测试异味后,模型的AUC_ROC值提升了2.5%-6.7%,精度提高1.4%-3.9%,召回率提高0.8%-4%,F1值提高2.3%-4.6%.根据可解释性人工智能算法SHAP分析的各特征属性对模型预测输出的贡献度排序,贡献度排在前20位的特征属性中有6种测试异味,分别为ECT,UT,AR,GF,MNT,ET,其中ECT对模型输出贡献度排在第9位,而ET则排在第20位,这表明不同测试异味对缺陷预测的贡献度有差别.同时,不同系统中的测试异味对模型预测输出的贡献度排序也存在较大差异.
  • 刘阳,庄毅
    2022, 43(4): 882-888.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    单粒子翻转引起的静默数据损坏(SDC)错误是影响嵌入式系统可靠性的关键因素.针对SDC错误难以检测的问题,本文提出了一种基于AdaBoost的SDC错误检测方法.方法首先将物理空间中的单粒子多位翻转映射到单一指令中,并建立故障模型;然后根据故障模型对目标程序进行故障注入以获取故障注入仿真实验结果,使用AdaBoost算法训练指令SDC脆弱性模型;最后根据模型预测结果对目标程序进行粒度可配置的指令冗余以达到检测SDC错误的目的.实验结果表明,与现有方法相比,本文提出的利用AdaBoost的SDC错误检测方法有着较高的检测率和较低的时空开销.
  • 段敏慧,姜瑛
    2022, 43(4): 889-896.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    云计算环境的复杂性、动态性和开放性特征,使得云计算系统的规模和结构日益复杂,产生的故障越来越多.现有的动态故障模型只关注于故障及故障间的关联关系,忽略了对故障特征的分析与处理,未动态关联故障与故障特征.因此,本文提出了一种云计算环境下服务故障模型动态建立方法.首先,预处理服务运行数据;其次,从预处理后的服务运行数据集中抽取服务故障与服务故障特征;最后,动态关联服务故障与服务故障特征,实现云计算环境下服务故障模型的动态演化.本文基于提出的云计算环境下服务故障模型动态建立的方法进行了相关实验,验证了方法的有效性.