跳到主要内容

为深暗的Web构建谷歌

该地图描绘了与非法产品相关的黑网络活动的热点,具有较大的圆圈,表明更多的非法活动。
该地图描绘了与非法产品相关的黑网络活动的热点,具有较大的圆圈,表明更多的非法活动。 (图片信用:Christian Mattmann,CC By-SA)

本文最初发表于 这Conversation. 该出版物将文章贡献给了现场科学 专家声音:OP-ED& Insights.

在今天的数据丰富的世界,公司,政府和个人希望分析任何事情以及他们可以掌握的一切 - 而万维网有更多的信息。目前,网络中最容易索引的材料是文本。但 多达8996% 互联网上的内容实际上是其他东西 - 图像,视频,音频, 在所有数以千计的不同类型的非文本数据类型中.

此外,绝大多数在线内容不可用谷歌这样的电子归档系统轻松索引的形式。相反,它要求用户登录,或者通过用户访问页面时的程序动态提供。如果我们要向在线人类知识目录,我们需要确保我们能够得到并认识到所有这些,并且我们可以自动完成。

我们如何教授计算机识别,索引和搜索在线可用的所有不同类型的材料?由于全球对抗人口贩运和武器交易的联邦努力,我的研究形成了一个可以帮助这种努力的新工具的基础。

了解什么是深刻的

在可怕新闻或电影的背景下,通常讨论“深网络”和“暗网络”。深网,“其中年轻人和智慧的罪犯正在逃避毒品处理和人口贩运等非法活动 - 甚至更糟糕。但这些术语意味着什么?

自从包括大学在内的企业和组织以来,“深网络”已经存在,以人们直接观看的方式在线将大型数据库放在网上。例如,在搜索联络信息的在线目录之前,许多大学都需要人们以校园社区的成员登录以获取学生的电话号码和电子邮件地址,而不是允许任何人获得学生的电话号码和电子邮件地址。诸如在线服务 dropbox.Gmail. 可公开访问,部分世界网络 - 但索引用户的文件和这些网站上的电子邮件确实需要个人登录,我们的项目不会参与其中。

“表面网络”是我们可以看到的在线世界 - 购物网站,业务信息页,新闻组织等。 “深网络”密切相关,但对人类用户而言,更重要的是,以某种方式更重要地 - 搜索探索网站的引擎到目录。我倾向于将“深网络”描述为公共互联网的那些部分:

  1. 要求用户首先填写登录表单,
  2. 涉及像Ajax或JavaScript这样的动态内容,或
  3. 以何种方式通过搜索服务正确索引图像,视频和其他信息。

What's dark?

相反,“暗网”是页面 - 其中一些可能还有“深网络”元素 - 由Web服务器使用名为的匿名Web协议托管 。起初 由美国国防部的研究人员开发 确保敏感信息,tor是 2004年发布到公共领域.

像许多安全系统一样 WhatsApp消息传递应用程序,其原始目的是良好的,但也被秘书掩盖了系统匿名的罪犯。有些人经营托特网站处理 非法活动, 如 毒品贩运, 武器人口贩运 乃至 谋杀租赁.

美国政府一直有兴趣寻求使用现代信息技术和计算机科学来打击这些犯罪活动的方法。 2014年, 国防高级研究项目机构 (更常见为DARPA),国防部的一部分,推出了一个呼吁的计划 Memex. 与这些工具争夺人口贩运。

具体而言,Memex希望创建一个有助于执法的搜索索引在线识别人口贩运业务 - 特别是通过挖掘深层和暗网。项目的学者团队,政府工人和行业专家使用的关键系统之一是我帮助发展,叫做 Apache Tika..

The ‘digital Babel fish'

TIKA通常被称为“数字巴菲鱼,“一个名为”的生物的比赛“巴菲鱼“ 在里面 ”Hitchhiker的Galaxy指南“书系列。一旦插入一个人的耳朵,巴菲鱼允许她了解任何语言。TIKA让用户了解任何文件和其中包含的信息。

当TIKA检查文件时,它会自动识别它的文件 - 例如照片,视频或音频。它使其与策划分类有关文件的信息:他们的名字,他们的扩展,一种“数字指纹”。当它遇到名称以“.mp4”结束的文件时,TIKA假定它是存储在的视频文件这 MPEG-4格式。通过直接分析文件中的数据,TIKA可以确认或反驳该假设 - 所有视频,音频,图像和其他文件必须以特定代码开始,说明他们的数据存储的格式。

识别文件类型后,TIKA使用特定工具来提取其内容,例如 apache pdfbox. 对于PDF文件,或 tesseract. 用于从图像捕获文本。除了内容之外,还捕获其他法医信息或“元数据”,包括文件的创建日期,谁持续编辑它,以及该文件撰写的语言。

从那里,TIKA使用高级技术 命名实体识别(ner) 进一步分析文本。 ner识别适当的名词和句子结构,然后将这些信息适合人,地方和事物的数据库,识别文本谈论的谁,但在哪里以及为什么他们正在做。这种技术帮助Tika自动识别离岸壳牌公司(事物);他们所在的地方;谁(人)是作为其中的一部分将钱存放在其中 巴拿马论文 暴露了全球政治,社会和技术领导者的财务腐败的丑闻。

识别非法活动

Memex.项目期间对TIKA的改进使得在处理深层和深色网络上发现的多媒体和其他内容更好。现在,TIKA可以处理和识别具有普通人口贩运主题的图像。例如,它可以自动处理和分析图像中的文本 - 受害者别名或关于如何联系它们的指示 - 以及某些类型的图像属性 - 例如相机照明。在一些图像和视频中,TIKA可以识别出现的人,地点和事物。

其他软件可以帮助TIKA找到自动武器和 识别武器的序列号。这可以帮助追踪它是否被盗。

在在线发布后,雇用TIKA监控深层和黑暗的网络可能有助于识别人类和武器贩运境地。这可能阻止犯罪发生并挽救生命。

Memex.尚未足够强大,可以处理那里的所有内容,也没有全面协助执法,有助于阻止人口贩运甚至与商业搜索引擎互动的人道主义努力。

它将需要更多的工作,但我们让我们更容易实现这些目标。 TIKA和相关软件包是DARPA的开源软件库的一部分 开放目录 对任何人 - 在执法,情报界或大型公众 - 谁想要闪耀深深的和黑暗。

基督徒马特曼,董事,信息检索和数据科学集团和兼职副教授,USC和主要数据科学家, 美国宇航局

本文最初发布 这Conversation。阅读 来源文章.