罗恩韬,王国军,李超良,
2016, 37(3): 438-442.
随着现实和虚拟世界的数据产生速度越来越迅猛,云计算,街景地图服务,社区网络等新兴服务促使数据的种类和规模正以前所未有的速度增长,大数据的规模效应给数据的存储管理和分析带来极大的挑战.数据量的激增会导致很多共性问题,例如数据的可表示,可处理和可靠性问题.如何有效处理和分析数据之间的关系,降低重复和冗余数据,建立非结构化数据的聚类分析模型.已经成为学术界和企业界共同亟待解决的问题.本文讨论大数据内部关系的复杂性,建立了一种更适合大数据时代的数据多维去重聚类分析抽取模型算法,此算法采样复杂度低,数据分析准确,易于实现,具有良好的判定性.