提到警务大数据预测犯罪,人们立刻会联想到电影《少数派报告》和CBS电视剧《数字追凶》,在今天的移动社交时代,社会化媒体的实时分析将成为警务大数据预测分析的热点领域,但这将意味着实时分析海量大数据的技术挑战,也就是从“大数据警务”到“快数据警务”的挑战。
也许不久后,纽约城警察局就能使用带地理位置标签的推文来预测犯罪。这听起来就像是科幻电影少数派报 告里的场景(更像美国队长2里的场景有木有,Hail Hydra),不过当我联系这项技术背后的弗吉尼亚大学研究员Matthew Greber博士时,他解释说这个系统并不是玄幻的,而是数学可行的。
Greber博士设计的这个系统,混合了各种新旧技术。当下,许多警察局会根据犯罪频率特定地监控一些犯罪热点。这个方法被称作核密度估计(KDE),它 可以把历史犯罪记录和地理位置信息结合起来,用一个几率函数计算出该地区未来会发生犯罪的几率。不过,根据Gerber博士的研究论文“使用推特和核密度估计预测犯罪”,这个方法与推特的实时动态数据流相比,简直弱爆了。
Greber博士的方法与KDE相似,但用网络数据和编程语言替代了档案。这套系统能绘制出一个推特环境,就像当下警察用KDE方法绘制出物理环境一样。 大的差别在于,Greber博士看的是人们实时谈论的热点,和他们的后续动作,得到他们的匹配度。
Greber说,这个算法可以寻找区域内暗示即将发生犯罪 的特定语句,“我们会观察人们谈论的话,出去啊,喝酒啊,逛吧啊,看比赛啊之类的。这些事件通常会与犯罪相关,这也就是模型要挑出的东西。”
一旦收集到了数据,推文上的GPS标签允许Greber和团队们在虚拟地图上标出潜在犯罪的热点。当然,并不是每个发推说待会逛酒吧的人都会实施犯罪。 Greber还比较了两种KDE预测方法的准确度。不过问题是,这个方法真的有用么?对于Greber来说,答案是肯定有点用的。“它能帮助一些人,也会 打击一些人”。
根据研究结果,基于推特的KDE算法与传统KDE方法相比,在预测跟踪,刑事损害,和赌博问题的准确度上有所提升。但在纵火,绑架,勒索等问题上,准确度 却相对较低。尽管尚不清楚为何使用推特反而更难预测这些犯罪,不过研究表示,这个问题可能与在推特上使用的语言有关,速记,非正式语言,会让算法难以分 析。
这种高科技预防犯罪手段引发了很多关于滥用用户隐私的争论。让警察使用这些数据来追踪罪犯,让事情变得极为敏感。关于这一点,尽管Greber知道一些社 会批评家反对国家使用私人数据,但他却是漠不关心。“人们勾选了用户协议允许推文上带有GPS标签。这个一个可选的东西,如果你不勾选,你的数据就不会被 收集。推特是一个公开的服务,我想大家很清楚这一点。”
Greber坚持说,使用这个系统对个人并没有威胁,因为它只会记录个人姓名,并不会对个人建模,也不会去识别罪犯。不过,问题并不在于警察会不会针对个人,而是团体和社区。这项技术的用处主要在于让警察能高效地定位。
不过,Greber反驳说,“你可以说它会让警察针对社区,但事实上,警察已经这么做了。警察们很清楚哪些社区比较坏,而且会针对性地分配更多警力。”
Greber说,纽约警察局会先在皇后区和布朗克斯区试点使用(满满的恶意啊)。不过,大范围采用还言之尚早,因为还没有测试它是否真的能降低犯罪率。