筑波大学计算科学中心Hiroyuki Kitagawa教授领导的研究小组在社交网络(以下简称SNS)中的网络大数据分析中,根据节点(用户)的年龄和性别等属性标签估计未知标签. 开发技术。它是在美国举办的 2016 年 SIAM 国际数据挖掘会议上宣布的。
随着信息技术的进步,社会中飞扬的数据量呈爆炸式增长。在这种情况下,对大数据的利用提出了强烈的要求,特别强调了如何利用包含大量有用信息的网络数据。
例如,在SNS中,可以将对应用户的年龄和居住地作为“属性标签”赋予每个节点,但有些节点并没有明确标示出来。为了搜索作为链接节点内容的重要补充信息的标签信息,需要从网络数据中的已知标签估计未知标签的“标签估计”,迄今为止已经使用了各种类型的方法。被开发。然而,存在的问题是这些不能应用于具有不同标签的节点容易相互连接的网络数据。
在这次提出的方法中,作为基本思想,除了传统的“比率”,还考虑了“绝对数”,将与“可靠度”成正比的量的线索传送到周围来估计标签。结果,可以考虑来自相邻节点的线索量(可靠性),并且可以处理具有不同标签的节点可以容易地连接的网络数据。根据实验结果,所提出的方法显示出比目前主流方法更高的精度。
通过在传统的估计过程中引入“可靠性”的概念,使得本研究结果中更准确的标签估计成为可能。未来,在考虑与现实世界中的大数据合作和利用时,有望成为估计用户属性的创新技术。