过刊目录

  • 2011年, 32卷, 第11期
    刊出日期:2011-11-20
      

    论文
  • 全选
    |
    论文
  • 论文
    袁霖1,2, 王怀民1, 尹刚1, 史殿习1, 朱沿旭1
    2011, 32(11): 2145-2151.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    如何从海量的、公共可获取的互联网资源中快速定位和获取高质量、满足自身特定需求的开源软件资源是当前软件开发技术核心竞争力的一个重要体现.本文研究了互联网上开源软件各种可信证据的存在及分布形式,给出了相关数据的定位和自动化获取方法;提出了面向互联网的开源软件自动化评估证据框架,用于解决互联网数据到软件可信证据的映射问题;提出面向互联网上海量软件资源的开源软件可信证据查询平台实现方法,用于解决软件可信证据的自动化获取及使用问题;基于该系统能够极大的提高评估效率,使得用户准确、快速、全面的了解相关软件项目的各种信息.最后,通过两个典型的开源软件实例证实了上述证据框架和方法的可行性.
  • 论文
    董博1,2,郑庆华1,2,宋凯磊1,2,田锋2,3,马瑞1,2
    2011, 32(11): 2152-2157.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过对术语集的统计特征分析,提出基于多SimHash指纹和k维超曲面的近似文本检测算法.实验表明基于多SimHash指纹的近似文本检测算法提高了检测的准确率,而且所增加的时间代价很小.
  • 论文
    杨丹1,2,申德荣1,聂铁铮1,于戈1,寇月1
    2011, 32(11): 2158-2162.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    由于数据空间自身的特点使得数据空间中的关键字查询与Web上和关系数据库上的关键字查询有着很大的差别,已有的关键字查询技术不能完全满足和适用数据空间环境. 关键字查询的简略性和无结构性所带来的模糊语义,无法准确地理解用户的查询意图使得查询结果不能很好地满足用户需求等.本文提出一种数据空间中的语义关键字实体查询机制keymanticES,着重介绍了关键字查询意图消歧的方法从而较好地解决了关键字查询的语义模糊问题,提高了关键字查询的准确率.实验结果表明所提出方法的有效性和正确性.
  • 论文
    熊磊,谭庆平
    2011, 32(11): 2163-2168.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    基于软件实现的软错误容错方法不需要硬件开销,被认为是一种高效的软错误容错方法,而动态的实现这种方法能覆盖更多种类型的程序,因而能覆盖更多的软错误.分析硬件软错误对程序执行时代码和数据的逻辑影响,并建立了硬件软错误条件下程序运行可靠性评估模型.本文的工作为基于软件动态软错误容错算法的提出提供了理论基础,也为程序可靠性的评估提供了一种方法.我们依据体系结构层硬件对指令执行的影响将硬件构件进行分类,并分析了不同的硬件构件对程序代码和数据的逻辑影响.基于软错误对程序代码和数据的影响模型,建立了软错误条件下程序运行可靠性评估模型.最后,在实验中,对软错误条件下程序影响模型和程序运行可靠性评估模型进行了验证,实验结果证明了本文的分析和评估结果.
  • 论文
    洪佳明,陈炳超,印鉴
    2011, 32(11): 2169-2173.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    迁移学习是数据挖掘中的一个研究方向, 试图重用相关领域的数据样本, 将相关领域的知识"迁移"到新领域中帮助训练. 当前,基于实例的迁移学习算法容易产生过度拟合的问题, 不能充分利用相关领域中的有用数据. 为了避免这个问题, 通过引入目标领域的无标记样本参与训练, 利用半监督Boosting方法, 提出一种新的迁移学习算法, 能够对样本的相关性进行更好的判断, 减少选择性偏差的影响. 在大量文本数据集上的实验表明了新算法的有效性.
  • 论文
    曾凡平1,2, 袁园1, 潘能刚1, 邓超强1
    2011, 32(11): 2174-2181.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    随机测试以其自动化程度高、揭错能力强的优势一直在测试用例的自动化生成领域占据着重要的地位,但其冗余度高、覆盖率低的缺陷限制了它的应用.程序不变量是程序的某个或某些特定的点上保持为真的属性,它可以提供程序运行时的有价值的信息.提出一种不变量指导下的随机测试用例的自动化生成方法.这种方法通过提取程序运行时的动态不变量,指导随机测试用例的生成,并且利用随机生成的无效用例的反馈信息,约简冗余的随机用例空间,增大了选中有效用例的概率.实验结果表明,该方法在保持随机测试的高揭错能力的前提下,可以有效的降低随机测试的冗余度,提高其覆盖率.
  • 论文
    崔亚兵,钟亮,康俊彬,沃天宇
    2011, 32(11): 2182-2186.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    近年来,随着云计算和虚拟化技术的普及和发展,软件的网络化、服务化使用成为一种新的趋势.在此背景下,虚拟化的软件能否快速加载与流畅运行成为软件能否高质量服务化运营的瓶颈问题.本文基于Windows NT平台设计实现了一种专门支持虚拟化软件启动与运行的虚拟文件系统,该系统采用按需即时流式下载方式,使应用程序边启动边下载,避免了启动前的等待过程,有效地加快了软件启动速度.实验结果表明,与完全下载方式相比,该系统能使虚拟化软件首次启动的时间减少20%至60%,很好地平滑了程序的运行过程,极大地改善了用户体验.
  • 论文
    王晓伟,贾焰
    2011, 32(11): 2187-2191.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    由于在经济、军事等领域的广泛应用,不确定数据的查询处理技术成为近年来数据库领域的研究热点.概率top-k查询根据打分函数和概率两个维度来对数据进行排序,因此具有多种查询语义.作为I/O密集型查询,概率top-k查询需要具备一定通用性的索引技术来提高查询效率.本文从分析概率top-k查询满足的性质入手,分别基于skyline和支配频率的概念,提出两种层次索引.通过理论分析和实验证明了满足特定性质的概率top-k查询均可以利用这两种索引来提高I/O效率,其中基于支配频率的索引具有更好的鲁棒性.
  • 论文
    万洁1,2,张文胜1,2, 朱青1,2,王珊1,2
    2011, 32(11): 2192-2197.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    关系数据库上的关键字查询使用户不必了解SQL语法或者数据库模式即可方便进行检索,并利用关系表的连接来保证查询的完整性.但是目前已有的关键字查询技术对于每个用户发起的查询皆从底层数据开始处理,而忽略了历史查询信息的使用.历史信息不仅包含了历史查询结果,而且反映了关键字之间的相关性,在查询过程中使用历史信息会提升查询效率.此篇论文正是针对此问题提出了新的解决方案:首先利用划分算法将用户输入的关键字划分为历史关键字和新关键字的组合;利用历史信息展开关键字查询,得到以子图形式存在的查询结果;基于与关键字的相关度对结果子图进行排序.最后,基于DBLP数据集,实验在执行时间和查准率方面证明了算法的有效性和高效性.
  • 论文
    朱沿旭1, 王怀民1,2, 尹刚1 , 史殿习1,王涛1, 袁霖3
    2011, 32(11): 2198-2203.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    提出一种基于马尔可夫链的主题和时间敏感的合作关系网络实体排序算法TTS-Rank,将节点排序过程解释为随机投票过程.算法首先将合作关系网络按照合作主题进行投影,然后在马尔可夫链随机游走模型中扩展了合作时间敏感的状态转移函数,最后根据迭代计算出的各节点得票数对实体进行排序.基于互联网开源社区合作关系网络数据的实验表明,TTS-Rank算法较传统算法更为精确,能有效支持面向不同技术主题、不同时间区间的实体排序.
  • 论文
    张桂刚1,2, 张勇1,2,尤川川3,李超1,2,邢春晓1,2, Philip C-Y Sheu4
    2011, 32(11): 2204-2209.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    现在很多部门都需要通过规则处理海量情报数据,规则的数量一旦达到海量级规模,对规则的处理技术的要求将会变得越来越高,海量规则的优化将是一个十分重要的问题.文中展示了一种海量规则的优化方法.若两个规则网最后的计算结果是一样的,则可以认为这两个规则网是等价的.基于该等价规则模块的变换可以将代价小的规则模块替换掉代价大的规则模块,从而以后可以选择一种代价最小的规则模块.本文提出规则网模块等价替换的5种优化方法,并对其做了相应的证明.通过优化,可以使得海量规则网处于计算代价尽量最小状态,以此减少处理机的计算工作量.分析表明,通过等价规则替换,可以大大提高规则处理效率.
  • 论文
    邢哲1,2,梁竞帆1,2,朱青1,2
    2011, 32(11): 2210-2216.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    传统的协同过滤推荐算法明显存在的缺点是数据稀疏性导致所求相似性的不准确,影响最终推荐质量.本文围绕其局限性展开研究,提出一种多维度自适应的协同过滤推荐算法,有机结合三种推荐模型——基于用户、基于项目以及基于评论的相似性计算,将观点挖掘技术运用到协同过滤推荐算法中,并通过动态度量方法自动确定三个维度的权重产生最终推荐.实验结果表明,该算法可以有效缓解用户评分数据稀疏带来的不良影响,提高预测准确率和推荐质量.
  • 论文
    盖新貌1,2, 沈昌祥2,3, 刘毅3 ,周明4
    2011, 32(11): 2217-2222.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    从可用性的角度提出一个基于属性的访问控制模型.首先介绍了属性、属性项等相关概念,在此基础之上,通过约束满足问题建立了访问控制规则的形式化模型;其次,证明了在给定属性项值域的前提下,正向规则与负向规则可以互相转化,从而提出一致性策略的概念,并分别根据肯定优先及否定优先规则合成算法,给出了一致性策略的形式化模型,研究了策略可允许访问操作集合;最后,通过实例阐述了基于属性访问控制模型的表达能力.
  • 论文
    沈晴霓1,2,3,杨雅辉1,禹熹1,2,3,张力哲1,2,3,陈钟1,2,3
    2011, 32(11): 2223-2229.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    云存储平台是多租户共享环境,能否实现其中不同租户数据之间的有效安全隔离成为了用户最为关心的问题.以RBAC(Role Based Access Control)策略为基础,结合组织标签和多种安全属性的逻辑组合,提出一种灵活的访问控制策略,它一方面保证云端不同企业之间数据的强隔离性,使某企业用户无法越权访问其他企业的用户数据;另一方面保证云存储企业内部数据的适度隔离,即可以根据公司自身的安全需求灵活定制企业内部策略.同时,引入虚拟组织的概念实现企业之间可能的数据共享;引入利益冲突的概念限制竞争企业之间的共享.给出了该策略在基于HDFS (Hadoop Distributed File System)的云存储架构中的原型实现.实验结果表明,该策略能够有效保障云存储平台多租户数据之间的恰当安全隔离.
  • 论文
    史佩昌1,王怀民1,刘雪宁2 ,袁小群3,尹刚1,史殿习1
    2011, 32(11): 2230-2236.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    部署于云服务传递网络(Cloud Service Delivery Network, CSDN)基础设施的P2P VoD系统,在每个CSDN节点内将同一节目的所有用户构建成P2P覆盖网,但CSDN单节点内大量节目的并发用户稀少.因此,如何在兼顾流量本地化的前提下,解决CSDN架构下P2P VoD覆盖网构造中Peer资源稀疏问题是当前面临的一个挑战.为此,提出一种P2P覆盖网的弹性构造方法ECM(Elastic Construction Method).ECM依据资源索引来弹性扩展P2P覆盖网的构造范围,有效解决Peer资源稀疏问题;同时根据CSDN节点间距离来选择扩展路径,实现P2P流量本地化.最后模拟实验结果表明, ECM能有效均衡服务器负载和跨ISP流量.
  • 论文
    汪祥,贾焰,周斌,丁兆云,梁政
    2011, 32(11): 2237-2242.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    自然语言词汇的语义相关度的计算需要获取大量的背景知识,而维基百科是当前规模最大的百科全书,其不仅是一个规模巨大的语料库,而且还是一个包含了大量人类背景知识和语义关系的知识库,研究表明,其是进行语义计算的理想资源.本文提出了一种将维基百科的链接结构和分类体系相结合计算中文词汇语义相关度的算法,算法只利用了维基百科的链接结构和分类体系,无需进行复杂的文本处理,计算所需的开销较小.在多个人工评测的数据集上的实验结果显示,获得了比单独使用链接结构或分类体系的算法更好的效果,在最好的情况下,Spearman相关系数提高了30.96%.
  • 论文
    吴雍东1,2
    2011, 32(11): 2243-2247.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    提出了对亚洲密码学会2010给出的一个基于格的群签名方案的攻击,表明了已有的群签名不能防止陷害攻击,不诚实的群管理员可以得到所有群成员的签名秘钥进而伪造出所有群成员的合法签名.该方案也不能灵活有效地增删群成员,每新增一个群成员,系统需要更新系统公钥和所有群成员的签名密钥,计算量大,效率低,同时该方案也未给出有效删除群成员的方法,不适用于实际中的动态群.基于格上最近向量问题的困难性,利用统计零知识证明,同时引入时间参数,给出了一种改进方案,新方案可以有效抵御陷害攻击,能够实现动态增加或删除群成员,且效率更高,实用性更强.
  • 论文
    杨晓元, 吴耕锐, 张敏情, 钮可
    2011, 32(11): 2248-2252.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    根据H.264编码标准帧内预测模式的特点,提出一种高容量视频信息隐藏方案.方案中用Tent映射选出待嵌入宏块,根据帧内预测模式及哥伦布编码特点,设计了一种最小角偏移预测模式替换算法,通过修改I帧中4×4亮度宏块帧内预测模式来嵌入秘密信息.为增加秘密信息安全性,先用Tent映射加密秘密信息,并用其生成的密钥选出待嵌入宏块.只需对帧内预测模式进行解码,便可从编码后的视频流中直接提取秘密信息.实验结果表明,该方案可有效嵌入秘密信息,不可见性好,视频流长度变化微小,并可通过调控控制因子N来调控嵌入容量,从而调控视频质量.
  • 论文
    何俊峰,黄斌,孙志刚,李韬,龚正虎
    2011, 32(11): 2253-2258.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    当前支撑流媒体内容分发的主要技术是CDN和P2P.然而,这两种技术并没有充分利用底层网络拓扑信息,没有考虑位于网络中心的交换设备存储.基于在网络设备中增加存储的思想,本文面向流媒体应用提出了一种新的分发模型-put/get模型.该模型将网络设备中的缓冲区作为数据分发的枢纽,能够将数据分发路径与网络拓扑结构较好地匹配,更容易实现网络资源利用率的最大化.模拟实验结果验证了该分发模型的有效性.
  • 论文
    何文秀1,夏明2,赵小敏2,程荣2,陈庆章2
    2011, 32(11): 2259-2262.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    定位技术是无线传感器网络的基础理论和关键技术之一.在实际应用中,一些信标节点在部署以后其位置由于各种原因而会发生漂移,由此就使得依赖于这些信标节点来定位的其他节点将无法准确定位,或者产生很大定位误差.本文针对信标节点产生漂移情况下的节点定位问题,提出了一种基于区域划分的信标节点移动检测算法(AD-BMD),在区域划分的基础上,通过两次判定过程将移动的信标节点检测出来,并为每个信标设置了坐标可信度值.为合理利用移动的和未移动的信标节点,提出一种基于信标移动检测的信标择优定位算法(BMD-BOS),通过合理选择信标节点来对其它未知节点进行定位.实验结果证明,AD-BMD算法具有很高的检测正确率和较低错误率,检测效果好于LB和SSV方法.BMD-BOS算法的定位精度远远高于没有进行移动信标检测的定位算法(N-BMD)和将移动信标丢弃的定位算法(D-BMD).
  • 论文
    范灵俊1,3,颜成钢2,3,宋风龙1,马宜科2,范东睿1
    2011, 32(11): 2263-2267.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升.
  • 论文
    姚涛,高德远,樊晓桠
    2011, 32(11): 2268-2273.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    浮点数求和与点积计算在科学计算,信号处理,图像处理等领域中广泛应用.对浮点和与点积计算的硬件结构进行了研究.在只有一次舍入误差的前提下,提出一种通用的浮点数求和算法和结构,利用重对阶方法,解决了多个粘贴位和尾数过抵消所产生的精度损失问题.然后将这种算法移植到浮点点积计算中.为了增加结构的通用性,将提出的结构和常用的SIMD计算单元进行结合.根据提出的算法,设计实现了FADD4 和FDP4的硬件结构,和使用离散的加法器和乘法器来实现求和与点积的方法相比,计算速度分别提高了20.4%和42.1%.
  • 论文
    李波1,2,3,孟丹1,2,霍志刚1,2
    2011, 32(11): 2274-2279.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对多操作系统核心下网络I/O资源的高效共享问题,提出的基于全局地址空间的I/O虚拟化方法.方法采用了半虚拟化的设计思想,基于全局地址空间支持,主、从核心在通信的关键路径上均可对网络设备直接发起I/O操作,从而获得最佳的I/O虚拟化性能.本文以HPP结构为实例,研究了将提出的I/O虚拟化方法应用到HPP结构下对InfiniBand网络进行虚拟化的关键技术,实现了从核心I/O通信时的OS旁路和主核心旁路.对曙光6000原型系统的测试表明,在主、从核心配置相同的情况下,从核心使用虚拟化InfiniBand的通信性能与主核心相当,I/O虚拟化对应用性能的影响小于2%.
  • 论文
    彭飞1,2,3,顾乃杰1,2,3,高翔4,孙明明4
    2011, 32(11): 2280-2284.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    数据的快速及时供应对访存密集型程序的性能有着直接的影响.提出一种多倍数据供应MDS(Multiple Data Supply)的编译优化方法,在不增加处理器设计复杂度的前提下,利用现有处理器的高带宽,一次对内存进行多个数据的读写,减少访存次数,提高应用程序效率.在编译优化阶段,利用自动向量化技术,生成向量形式的树结构,增加一条新的扩展路径来处理从向量化的树结构到底层结构的扩展.针对向量化后树结构的多样性问题,设计新的优化遍以及RAC(Register Assignment Chain)替换算法进行专门处理.在龙芯3A处理器平台上,对SPEC-CPU2000的测试,CINT程序平均性能提升11.6%,CFP程序平均性能提升14.4%.
  • 论文
    马超,阎栋
    2011, 32(11): 2285-2288.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    设备驱动的可靠性对于操作系统的可靠性具有重要意义.在编写驱动时总是假设硬件设备一直正常工作,但实际上硬件设备经常会出错.因此这个假设有可能会导致驱动甚至整个操作系统失效.硬件设备会产生中断相关的错误,典型的中断相关错误有持续中断和不产生中断.这类错误会导致操作系统内核不能正常工作.因此,在驱动中检测中断相关的错误对于提高操作系统稳定性具有重要意义.本文介绍了基于定时器的检测持续中断和不产生中断的方法.该方法相比以前的方法具有开销小、精确度高的优点.
  • 论文
    吕启1,徐佳庆1,窦勇1,冯雪2
    2011, 32(11): 2289-2294.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    提出一种仿生的面向多细胞阵列的分布式定序方法.该方法是基于生物学上的图式形成理论,通过催化剂-抑制剂模型在多细胞阵列中建立浓度梯度,并在此基础上进行定序.该方法具有如下的特点:跟现有的多细胞阵列维序方法相比,它采用主动的维序方式;跟传统的分布式定序方法相比,它不需要初始特征值就能实现定序和维序.故障注入实验表明,该定序方法较现有的方法具有更强的鲁棒性,在细胞出错的情况下能够重新建立浓度梯度和重新定序.此外,我们在Xilinx公司的型号为Virtex-6 XC6VLX760的FPGA芯片上实现了5x5多细胞阵列,对浓度梯度建立和重建时间及硬件资源开销进行了评估.
  • 论文
    方娟, 杜文娟
    2011, 32(11): 2295-2298.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    随着片上集成核数的增多,片上Cache的面积也越来越大,同时消耗的能耗也越来越多.因此,面向低功耗的Cache划分方法不可避免地成为了Cache划分中需要考虑的一个重点.然而,目前的Cache划分算法主要是面向公平性、性能或者QoS的,很少考虑到功耗问题.面向低功耗的混合划分方法(LPHP) 利用程序运行的局部性原理,将在L2 Cache中访问差异度较大的线程作为一个划分单位,通过私有和共享两种资源分配方式相结合来实施Cache划分,从而实现在运行同一个应用时,使用更少的Cache列,关闭剩余列,达到降低系统功耗的目的.LPHP通过减少在使用的Cache列来达到降低功耗的目的,符合当前多核发展低功耗的趋势.
  • 论文
    曹春红1,3,唐川2,赵大哲3,张斌1
    2011, 32(11): 2299-2302.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    几何约束是约束求解技术中最关键的问题之一.求解一个几何约束问题的最终目的是确定几何图形中每一个几何体的具体坐标位置.几何约束问题可以等价为求解非线性方程组问题.约束问题转化为一个优化问题.本文采用基于雁群启示的粒子群优化算法来求解该问题.该算法受雁群飞行特征启发,一方面将粒子排序,每个粒子跟随其前面那个较优粒子飞行,保持了多样性;另一方面使每个粒子利用更多其他粒子的有用信息,粒子之间的竞争被增强.两个方面的结合将平衡速度和精度之间的矛盾.实验表明,该方法可以提高几何约束求解的效率和收敛性.
  • 论文
    佘维,叶阳东
    2011, 32(11): 2303-2308.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对Petri网在分析复杂电力系统时的容错性差且难以适应网络拓扑变化的问题,提出一种贝叶斯Petri网模型(BPN),并基于该模型提出一种电网故障诊断方法.该方法通过电力系统网络拓扑分析确定停电区域,随后按照故障蔓延方向对停电区域内的元件分别建立BPN模型,应用Petri网推理和贝叶斯概率计算确定故障元件,最后采用均值方法对各方向上的分析结果进行融合.诊断分析表明,该方法在信息不完备的情况下具有较好的容错性,并且在网络拓扑结构发生变化后仍具有较好的适应性.由于BPN推理时根据基于统计的先验概率求取元件故障的发生概率,避免了直接对计算参数进行设定的主观性.
  • 论文
    孙荣1,2,周文1,刘宗田1
    2011, 32(11): 2309-2314.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    信息抽取是数据挖掘的重要课题.目前的研究主要通过机器学习的方法对信息进行抽取.但是机器学习对训练数据的质量要求高,学习过程中参数设置复杂.而利用事先构建好的规则可以简单有效的从文本中提取事件信息.提出一种基于抽取规则对句子中的事件信息进行抽取的方法,摆脱了繁杂的机器学习过程.该方法利用本体对动词与事件角色匹配规则、事件角色抽取规则、时间信息抽取规则和地点信息抽取规则进行定义,用OWL对这些抽取规则进行了描述,然后应用这些规则抽取句子中的动词词义信息、事件角色信息、时间信息和地点信息,并用本文提出的一种新评测指标对事件信息进行评测.实验表明该方法从句子中抽取事件信息是有效的.
  • 论文
    王文学,李芳
    2011, 32(11): 2315-2319.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    目前基于机器学习的中文语义角色标注(Semantic Role Labeling,SRL)方法大致可以分为两类:基于深层句法分析的方法和基于浅层句法分析的方法.由于基于这两种方法的SRL系统在性能和健壮性上各有优缺点,本文试图联合基于这两种方法的SRL系统的输出,通过一些全局特征训练出联合模型,对候选角色进行过滤,然后解决不满足句子论元结构限制的冲突角色得到最终标注结果,来提高标注的性能.在Chinese PropBank 1.0语料集上,联合模型的F值达到了78.41%,在基于深层句法分析的SRL的F值67.34%和基于浅层句法分析的SRL的F值71.67%基础上有了显著的提高,从而证明我们的联合方法是非常有效的.
  • 论文
    吴杰1,岳昆1,刘惟一1,赵小明2
    2011, 32(11): 2320-2325.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    短时交通流量预测,是交通系统信息化和智能化交通运输管理技术领域研究的关键问题.目前的方法对历史数据具有较高的依赖程度,或者具有较高的计算成本,或者不能有效反映实际中较复杂的交通网络及各结点之间的相互关系、以及依赖的不确定性,或者多种模型的组合使得预测方法较复杂.贝叶斯网是一种重要的概率图模型,本文以交通网络结构为基础,利用概率图模型在不确定性知识表示和推理方面的良好性质,考虑路口交通流量及其预测的时序依赖特征,构建了带有时序条件依赖关系的交通贝叶斯网.进而针对短时交通流量预测的实时性和高效性要求,提出了基于Gibbs采样的交通贝叶斯网近似概率推理算法,并进行交通流量的短时预测.实验结果表明,本文提出的交通贝叶斯网构建、近似推理以及相应的短时交通流量的预测方法,具有高效性、准确性和可用性.
  • 论文
    李静1,2,李贺2
    2011, 32(11): 2326-2330.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    图像搜索中重要的问题之一是如何有效地对搜索结果进行排序.现有图像搜索引擎的排序模型一般都基于相关文本而没有考虑图像的视觉特征.由于文本特征有时并不能很好地匹配图像的内容,所以搜索结果中会包含被错误排序的图像.针对该问题已经提出了视觉重排序方法,通过视觉信息来精炼基于文本的搜索结果.然而视觉重排序带来的性能提升有限,主要原因是基于文本的搜索结果中的错误会传播到视觉重排序阶段.本文基于排序学习的框架提出一个联合文本和视觉特征的图像排序学习模型,同时考虑了视觉和文本特征来进行排序学习,避免了视觉重排序中的错误传播.实验结果表明本文提出的排序模型显著地好于现有的重排序方法.
  • 论文
    庄毅
    2011, 32(11): 2331-2336.
    摘要 ( ) PDF全文 ( )   可视化   收藏
    基于内容的图像检索在很多领域都有广泛的应用.传统方法通常提取图片的底层视觉特征,如颜色、纹理和形状等, 进行在视觉特征空间下的相似查询.然而,这些视觉特征无法表达图片需要传递的情感和概念信息.提出一种基于视觉和主观特征的统一图像概率检索方法.具体来说,图片通过三种类型特征(视觉特征、风格特征和情感特征等)来表达.通过线性加权得到图片间的统一相似距离,其中权重参数通过多元回归得到.不同于常规图像检索方法,只采用视觉相似度作为查询的相似尺度,该方法允许用户选择三种特征作为查询元素,而且,通过引入概率模型实现对检索结果进行一定置信度保证的进一步细化.实验表明该检索方法及其索引的有效性.