注册

[三联生活周刊]大数据与“棱镜门”


来源:三联生活周刊

人参与 评论

《大数据:一次将改变我们生活、工作和思考方式的革命》一书的作者肯尼思·库克耶(上)与维克托·迈尔-舍恩伯格 2010年5月26日,Facebook创始人马克·扎克伯格在美国加州帕罗奥多市举行新闻发布会,公布Facebook新的隐私控制功能

位于俄罗斯斯科尔科沃的思科工程中心

《大数据:一次将改变我们生活、工作和思考方式的革命》一书的作者肯尼思·库克耶(上)与维克托·迈尔-舍恩伯格

美国优势

上世纪70年代末,斯坦福的一对教师夫妇列昂纳德·波萨克和桑德拉·勒纳设计了一种新型的联网设备,用于斯坦福校园网络。波萨克是斯坦福大学计算机系的计算机中心主任,勒纳是斯坦福商学院的计算机中心主任。他们用一种叫“多协议路由器”的装置,将校园内不兼容的计算机局域网整合在一起,形成一个统一的网络,标志着联网时代的真正到来。1984年,两人联手在硅谷的圣何塞成立了一家公司,名为思科(Cisco)。

Cisco的名字取自SanFrancisco(旧金山),那里有座闻名于世的金门大桥,在信息时代,寓意思科也要成为网络间畅通无阻的“金桥”。创始人夫妇在1990年退出了思科,5年后,思科成为世界最大的网络设备制造商。如果把全球网络系统比作是现实世界里的路网,路由器就好比是高度智能的立交桥,来自四面八方的信息流经这里,经过计算、分配,再流向各自的目的地。

仍然以交通体系为例,如果按照传统世界的规则,思科作为基础设备提供商,帮别人修好了立交桥,高速路通了车,大家就互不干涉了。可在互联网的世界里,关系的建立很容易,消除却要难得多。只要立交桥还在使用,只要高速路上有车在跑,在它们经过立交桥的时候,思科就有能力给汽车拍照留存、记录车子来去的方向,甚至,只要他们愿意,还可以拦截、阻断,或者干脆把你要去的那条路封闭掉。

值得注意的是,在今天,中国互联网“高速路”上,到处可见思科这样的国际网络设备巨头建设的“立交桥”。业内人士普遍认可的一个数据是,思科设备占据了中国骨干网络60%~70%的份额,把持了骨干网绝大部分超级核心节点和普通核心节点。在金融行业,中国四大银行及各城市商业银行的数据中心几乎全部采用思科设备;在铁路、民航、码头和港口,以及海关、公安、武警、工商、教育等政府机构,思科的份额都超过了50%;甚至在石油、制造、轻工和烟草等行业,思科也占据了大部分市场。

“迄今为止,我们还没有确凿的证据,来证明思科这样的网络基础设备供应商发动过恶意的网络攻击,而只能说,只要它想,它就拥有这种能力。”接受本刊记者采访的中科院信息工程研究所总工程师荆继武强调说,“理论上说,只要美国政府和它的几大IT企业合谋,几乎有能力拿到任何它想要的信息。这是美国的优势,有先天的历史优势,也有后天的产业优势。”

说到先天优势,就不得不提互联网的诞生。1958年,为了应对1957年苏联发射第一颗人造卫星造成的信息恐惧,美国国防部成立了高级研究项目局(DARPA),开始着手研究信息网络。1969年,在DARPA制定的协议下,美国西南部的4所大学——加州大学洛杉矶分校、斯坦福大学研究院、加州大学、犹他州大学的4台主要计算机连接起来,这就是最早的互联网。

最早接入互联网的机构,分配的IP地址只是一连串的数字。后来,随着接入互联网的单位越来越多,为了方便记忆与查找,开始出现了域名解析系统(DNS)。借助域名解析服务器,人们不再需要记住复杂的数字,只需输入一个特定的网址,服务器就会自动判断出你要寻找的网址。这就像是一个网络世界里的户口管理系统,其结构类似于金字塔形状,而位于最顶层的设备叫作根服务器(RootServer),拥有经美国政府批准的260个左右的互联网后缀(如“.com”、“.net”等)和一些国家的指定符(如法国的“.fr”、中国的“.cn”等)。

全球一共有13台根服务器,一台是主根服务器,位于美国弗吉尼亚州的杜勒斯,由美国VeriSign公司负责运营维护。另外12台辅根服务器中,有9台也在美国,还有3台分别在英国、瑞典和日本。2012年7月举行的全国两院院士大会上,时任国务院总理温家宝就对这个问题表达了自己的忧虑,他说:“目前中国互联网用户已突破5亿,全球排名第一,但主要用来管理互联网主目录的根服务器全世界共13台,1台主根服务器在美国,其余12台辅根服务器9台在美国,没有一台在中国。美国的互联网用户数量还不到我国的一半,但网络主机数量是中国的28倍。”

荆继武告诉本刊记者:“虽然现在有技术可以绕过根服务器,或者干脆用IP地址输入,刻意避开域名解析,但对于大多数人来说,这样做并不现实。说到底,互联网是美国人建立起来的,我们都是外来者。”在网络安全专业人士看来,根服务器还算不上美国手里的王牌,它充其量只是一个“114查号台”。但在某些极端情况下,控制了根服务器,就相当于控制了全球互联网的身份数据库,“查号台”甚至可以让某些网址从查询系统里消失,这样当外界输入网址的时候,便无从找起。索马里、利比亚都曾经有过这样的遭遇。

很难用一个形象的比喻来描述全球互联网的结构。一方面,它具备树状结构的特点,有根、有主干、有枝蔓;另一方面,它又有平等、无中心的特点,每一个节点的信息都可以在全球网络中自由流通。虽然从信息流通来看,互联网构筑了一个“平的世界”,但是,从网络管理上来看,其自上而下的特征更加明显。以中国为例,1994年,中国电信开始架设面向公众的骨干互联网,以上海、北京两个节点为核心,之间用2M带宽相连,然后通过这两个国际出口与全球互联网连通。

两年后,中国电信骨干网建成,覆盖了全国所有省会城市。这就像一张航线图,以北京、上海、广州三个超级节点作为国际出口,在国内选取了沈阳、成都、武汉、西安、南京为核心城市作为大区的核心节点,再往下就是各省会城市,由此形成了一张对外连通、对内纵横交错的全国互联网。由于窄带拨号接入的入网领示号为163,因此被称为163骨干网。1996年底,另一张只能在国内访问的互联网建成,名为169骨干网,它们统称为中国公用计算机互联网(CHINANET)。

直到今天,163和169骨干网仍然承担了中国80%以上的网络数据流量。此外,还拥有面向教育机构的中国教育和科研计算机网(CERNET)、面向全国科研机构的中国科技网(CSTNET)、为宏观经济调控服务的中国金桥信息网(CHINAGBN)。他们与CHINANET共同组成了中国的四大骨干网络。据此次“棱镜门”披露,清华大学长期受到美国情报部门的网络监控,就因为面向全国教育机构的CERNET主要由清华大学来负责建设和管理运行。“从网络监控和攻击的角度来说,当然从上往下更好,便于获取更多的信息,拥有更大的控制权限。”

 

杀毒软件公司McAfee创始人约翰·迈克菲

公司的角色

美国也是最早意识到信息管理与网络安全的国家。早在1934年,美国国会通过《联邦通讯法案》,这是美国也是世界上第一部对情报监听加以规范的法律,该法第605条规定,未经信息发送者授权,任何人对通讯不得监听。1968年,《联邦监听法令》通过,规定除非有法庭授权并签发令状或经当事人同意,执法人员不得在通信线路上搭线或者截听电话,也不得使用电子装置窃听私人谈话。此后,又分别在1978年通过《外国情报监视法》(FISA),1986年通过《电子通信隐私法》(ECPA),1994年通过《执法通信辅助法》(CALEA),从而建立起全方位的监听监视法律体系。

其中,《执法通信辅助法》规定,执法机关可以根据法院监听令状直接接入电信网络启动电信运营商交换机中的监听功能。这意味着美国法律要求电信运营商等网络、通信服务者必须为政府预留一定的接口以备不时之需。“9·11”之后,美国通过《爱国者法案》,大大提高了政府在情报收集方面的权限。虽然几经抗议,但最后博弈的结果是,只要外国情报调查法庭批准,政府安全部门有权向电信或网络运营商所要相关数据。据《华盛顿邮报》披露,此次曝光的“棱镜”计划中,一共涉及9家IT公司,微软是第一个加入其中的,时间是2007年9月11日,苹果公司则在2012年10月最后一个加入。

在IT界,一直有“八大金刚”之说,指的是最著名的八大美国IT公司——思科、IBM、谷歌、高通、英特尔、苹果、甲骨文、微软。他们几乎垄断了全球IT产业的所有领域,包含了从硬件到软件再到服务等三个层面。中科院信息安全国家重点实验室主任林东岱向本刊记者分析,CPU是一台电脑的大脑,如果联网计算机使用英特尔公司提供的某款芯片,就会发送一个序列号到英特尔公司,这也意味着在这台电脑上运行的一些信息也可以同时一并发送过去。另外,操作系统是网络软件运行的载体,联网后我们会经常受到自动更新的提示,这意味着垄断操作系统的微软公司,可以轻而易举地掌握一台电脑的网络活动。同时,由于操作系统在不断更新,微软公司通常会最早发现其系统存在的漏洞,他们向政府安全部门提供的漏洞信息,就会有助于情报机构就此攻击那些还没有修补漏洞的计算机。

林东岱向本刊记者强调,如果说这些硬件和软件公司在生产设备的时候存在一定的道义压力,那么,应用程序服务商就可以正大光明地坐收渔翁之利。比如,我们用雅虎邮箱发邮件,用Skype网络电话通话,用Google地图标注、搜索,用Facebook发布社交状态,用MSN即时通讯聊天,所有这些网络活动,都会在各大公司的服务器上留下原始数据。“某种程度上说,这是我们主动提供的信息,平时公司可以承诺保护隐私,但如果安全部门拿到法庭的许可,就可以调用这些数据。”

信息安全领域有一种说法是,在美国的“八大金刚”面前,任何一个国家的网络安全都脆弱不堪,因为很少有网络活动能够完全绕开它们。荆继武和林东岱都认为,美国在全球网络监控上之所以远远走在前列,更大程度上还是因为它拥有全球最领先的IT公司,几乎涵盖了所有日常的网络服务。“只要我们使用,就躲不开它,产业上的差距才是信息安全的最严峻挑战。”这并非危言耸听,美国竭力阻止华为、中兴等网络硬件供应商进入其国内市场,正是出于国家安全的考虑。

美国网络公司与政府的密切关系一直隐而不张,国会议员里有很多人就是这些“八大金刚”的股东。美国媒体披露,英特尔旗下的信息安全公司McAfee就经常与NSA、FBI和CIA合作。McAfee被视为有价值的合作伙伴,因为该公司能通观恶意互联网流量的情况,包括外国势力的间谍活动。一些黑客利用合法服务器从事黑客活动,而McAfee防火墙能收集到这些黑客的信息,McAfee的数据还能表明一些网络攻击源自哪里。“棱镜”项目曝光后,涉及的企业纷纷跳出来披露信息以平息舆论压力,从Google提供的《透明度报告》可以看出,美国政府去年下半年共向其提出了8438次数据要求,涉及账户1.4791万个,88%的要求被执行了。

即便是传统的电话通信,也不能例外。电话与互联网本来是两张不同的网络,但是,随着现代通信的发展,这两张网现在已经越来越融合在了一起。抛却网络IP电话不谈,就是普通的移动电话、无线信号发射到基站,然后再进入光缆传输系统,但在很多地方,其一部分信号传输路径也要经过互联网。信息就像流水,一旦进入管网,就会留下蛛丝马迹。

在美国,信息安全已经成为一项庞大的产业。南京翰海源信息技术有限公司创始人方兴曾经在微软做过安全测试工作,他告诉本刊记者,自从2003年蠕虫爆发破坏Windows操作系统以后,微软就大大提高了在安全方面的研发投入,甚至在开发一款新产品的时候,安全测试部门可以拥有“一票否决”权,有时候甚至为了安全会牺牲一些用户体验。比较之下,国内政府和公司对网络信息安全的重视程度都还远远不够。“意识、观念都跟不上,现代的网络安全已经不再单纯是传统的加密、解密问题,而是已经发展到了针对代码行为的攻防阶段。”方兴说。即便美国的网络安全产业如此发达,但根据自己评估,2012年因为网络攻击造成的损失仍高达3000亿美元。

 

2010年5月26日,Facebook创始人马克·扎克伯格在美国加州帕罗奥多市举行新闻发布会,公布Facebook新的隐私控制功能

元数据

随着“棱镜”项目的信息不断被披露,人们开始担心,是否会像奥威尔在小说《1984》里描述的那样,自己的一举一动都在“老大哥”的监视之下。其实,在专门从事信息安全研究的专业人士看来,这种担心并非无中生有,尤其是在移动互联快速发展的今天,我们每个人几乎每时每刻都在产生数据。

几个月前,在犹他州盐湖城以南26英里的美国国民警卫队的Williams露营地,美国国家安全局(NSA)开始建设一个总投资达到12亿美元的密码破译和数据分析数据中心,前NSA技术总监透露,其存储容量将达到5ZB。1ZB等于1024EB,或者约2500亿DVD的容量。赛迪智库信息安全研究所的冯伟博士告诉本刊记者,2013年全球互联网产生的数据总量大约是667EB,而且以每两年翻一番的速度在增长,由此可见NSA的信息存储能力。

2012年3月,奥巴马政府将“大数据战略”上升为最高国策,认为大数据是“未来的新石油”,将对数据的占有和控制作为陆权、海权、空权之外的另一种国家核心能力。迈克·弗劳尔斯是纽约市打击金融犯罪行动组主管,他最近被赋予一个新的职务——纽约市首席分析官。将全面负责大数据在纽约市的执法、经济规划、防灾和灾后恢复等方面的应用。

斯诺登披露的“棱镜”计划,缘于美国政府的“星风”监视计划。2004年,布什政府通过司法程序,将“星风”监视计划分拆成由国家安全局执行的4个子计划,除“棱镜”外,还包括“主干道”、“码头”和“核子”。其中,“棱镜”用于监视互联网个人信息;“核子”则主要负责截获电话通话者对话内容及关键词;“主干道”和“码头”分别对通信和互联网上数以亿兆计的“元数据”进行存储和分析。

在冯伟看来,对元数据的收集与分析,表明美国的网络监控水平已经具备了大数据时代的显著特征。“元数据”,主要指通话或通信的时间、地点、设备、参与者等信息,不包括电话或邮件等的内容。举例来讲,如果一个在巴基斯坦的恐怖分子用Gmail邮箱与美国本土的联络人联系,那么,元数据就是指他们之间的发信时间、地点、设备、频率等基本信息。以往,这样的信息往往被认为没有多少价值,情报部门会把精力放在搜集信件内容上,但是,现在有了海量数据存储与分析能力之后,这些庞杂的信息经过超级计算机的快速运算,也会从中显露出不易察觉的规律,从而提供有效的情报信息。

按照美国联邦通讯委员会对用户信息保护的政策,电信运营商可以收集用户的个人信息,包括通话号码、通话时长、通话地点等通话数据,以帮助他们了解哪些地区的网络覆盖不足,该为哪些业务繁忙的地区增加设备。以往这些信息往往不会被视作个人隐私,只有通话内容才会受到严格保护,但是,“主干道”和“码头”监控项目表明,对这些海量元数据的分析,有助于情报机构迅速缩小包围圈,锁定监控目标的活动轨迹。

美国《外交政策》杂志网站5月9日刊登了微软研究院首席研究员、麻省理工学院客座教授凯特·克劳福德的一篇名为《再思考大数据》的文章,他提醒人们,那种认为“大数据是匿名的,它不会侵犯我们的隐私”的想法大错特错。他举例说:“高度个人化的大数据集将成为网络黑客或泄密者觊觎的主要目标。世界上最富有的1%人群的个人信息和普通人的信息一样,非常容易被人公开。”

而方兴对“棱镜门”中有关元数据的描述更加担心。“元数据记录了一台计算机的工作环境,包括操作系统、浏览器、应用软件版本等基本信息,收集这些元数据,是发起网络攻击的必备步骤,正所谓知己知彼。”他告诉本刊记者。林东岱也向本刊记者强调,现代情报的收集不同于传统的秘密谍战方式,而是大部分来自于对公开信息的再整理和再分析。据统计,美国每年情报总量的80%来自于这种开源情报,表面上看,一个人、一个公司公开的信息并无多大价值,但如果将这些海量数据汇总起来,就具备了分析价值。

无所不在的数据,无处不在的网络和大规模分布式的存储和运算能力(云计算),忠实地记录了我们的衣、食、住、行及社交状态。现在,人类一天创造的数据相当于2000年一年的数据量。把一个人一生的生理、心理数据等全部记录下来,大约需要1000T的数据量(1024G等于一个T)。面对如此海量而且不规则的“非结构数据”,《大数据:一次将改变我们生活、工作和思考方式的革命》一书的作者之一、牛津大学教授维克托·迈尔-舍恩伯格提出的方法是,多进行关联分析而少做因果分析。这与“棱镜”计划的做法不谋而合。

这本书的另一位合著者肯尼思·库克耶是《经济学家》杂志的数据编辑,他日前在美国《外交政策》杂志掀起一场有关“大数据时代令隐私保护问题更加突出”的讨论。库克耶认为,大数据的价值在于存储后的再使用。不过,收集、保存一切信息,与隐私保护政策是有冲突的。“保存一切信息是必要的,但是在这么做之前,我们有必要问自己一个问题,即现行的隐私保护政策是不是妨碍了我们正在迈入的大数据世界。”他写道:“当一切数据都变得有价值时,我们不禁要问,隐私的边界何在?如何处理个人自由与国家安全之间的关系?”

接受本刊记者采访的信息安全专家都再三强调,无论是硬件还是软件,现在只能说美国政府和公司“有能力”进行网络监控和发起网路攻击,但除了斯诺登和媒体的披露,被监控和攻击的一方至今仍然很难拿出确凿的证据证明他们那样做了。“网络世界的界限很模糊,被监视或被攻击的一方,往往是在毫无觉察的情况下就沦为了情报战的战利品。”

以网络安全领域争议最大的“后门”为例,其性质就很难判定。方兴向本刊记者介绍,后门本来是指软件开发人员刻意留下来的,便于绕过用户权限控制来修改设计缺陷,在软件发布之前会全部删除,否则就容易成为对手攻击的漏洞。可是,这些后门很难检测,判断后门是有意留下还是无意留下,就成为一个难以界定的问题。“现实世界的安全是建立在信任基础上的,遵循的是无罪推定,事后追惩,而网络世界的规则完全变了个样,信息在跨国间不停流动,区域内的信息流通也要依赖DNS这样的全球机制,有时候被偷走了自己还不知道,即便知道了也不知道是什么原因、谁偷的,事后追惩的成本太高。所以,只能遵循有罪推定、事先预防的原则。”方兴向本刊记者分析道,“这就好比是,你把自家的钥匙给了一群陌生的装修工人,恰好你房子里又有机密文件,你不能指望别人不来偷,只能自己买个保险柜把文件装起来,再装个摄像头以防万一。”

相关新闻:

标签:棱镜 谷歌 1986年

人参与 评论

凤凰科技官方微信

0
凤凰新闻 天天有料
分享到: