在中国的互联网审查的一个小书房
写在2009年1月14日,由Julen马达里亚加最后一个星期日,我在中国互联网审查后,我在混合各种不同的想法,我恐怕没有关于搜索引擎检查的最终结果都一样清晰,我会喜欢。 我认为这是一个重要的课题,所以这里有完整的结果:
我们将在Google.cn,Google.com和Baidu.com,我们将尽力在他们每个人3不同类型的搜索字词。
A - Chrter 08:在其所有的组合,这是08宪章零八宪章
B超的政治条款:天安门事件(天安门六四事件),飞狮。
C -粗俗的话:性别。 我将采用“工作博客”和“鸡栏”。
据了解,在所有情况下的搜索简体中文。 浏览器是Firefox 3.0.5。 连接是一个正常的家庭DSL由中国电信。 可能的结果是:
- 免费搜索 -结果看起来一致的和现实的,像在西方获得的。
- 重置连接(RC) -这只能在中国内地。 结果是一个类似下面的搜索引擎的形象不能打开一段时间了(我估计30秒)。 RC是没有直接的搜索引擎。 维基百科内部搜索也给乡为B条款。
- 故宫消息(FM) -这是被禁止的消息,有轻微的变化,是相同的,如下所示。 它说,在线条的东西:“有些结果不显示根据当地的法律,法规和政策”。
- 操纵的结果(MR) -这是明显操纵结果的情况下,例如在搜索天安门六四事件(天安门事件)在百度,所有的结果是官方报纸,如人民日报等,有时也可以进行一个调频页面顶部。
Google.com
一个免费的搜索。 (但有个别的结果给出了钢筋混凝土)。
B超重置连接
C - 操纵结果。
Google.cn
一个故宫消息和( 有时 )操纵的结果
B超重置连接。
C - 紫禁城的消息。 当使用“使操纵的结果。
Baidu.com
一个操纵的结果。 当使用“给故宫消息。
的B-FM和操纵的结果。
的C-FM和操纵的结果。
结论
1 - 结果是有些不稳定,这是很难看到一个模式:这一切看起来像一系列的补丁比系统实现彼此顶部。 此外,随时间而变化的东西,如*,在那里我看到周日操纵的结果,不能看到了。
2 - 百度从谷歌有一个不同的系统:它有没有复位连接。 这对百度是非常有利的,我明白这是不公平的竞争,作为一个RC上网时最糟糕的经历之一。
: the involvement of the Search Engines in the RC is unclear no direct involvement (even Wikipedia has RCs!) whereas Manipulated Results obviously requires their action, and can more easily attract attention from Advocacy Groups. 3 -这可能是由于谷歌的自己的喜好 服务器位置 :在RC的搜索引擎的参与是不清楚 没有直接参与,而操纵的结果(甚至维基百科有乡事!)显然需要他们的行动,并可以更容易吸引从倡导关注组。 性条款(c)的情况下,当然,这并不是一个问题,因为操纵的结果可以被称为“安全搜索”。
4 - Chrter 08比其他政治方面有不同的治疗方法,但它也可能只是因为它被取缔紧急,突然,所以它只是速战速决添加到现有的结构。 它不惹任何情况下,RC。 看起来他们已经决定离开Google.com上孤军奋战,以避免西方倡导团体的关注,但在谷歌交换了放弃Google.cn,并适用于臭名昭著的“色情块”,它是由SE 主动送检 。 FM和非RC为什么呢? 谁知道,我猜也许RC是更复杂的实现。
5 -在任何情况下,然而负面的,我理解它始终是最好的FM比操纵结果显示,因为前者是公开承认的审查,而后者则是一个谎言,歪曲了事实真相紫禁城消息不增加透明度,但 。 没有理由参与政治审查 。 从这个角度看,谷歌比百度的真相。 百度似乎确实在政府的信息管制计划的积极参与者,中国用户的百度显然是最容易受到搜索引擎洗脑。
更新: 继由国际专家更正下面纳尔特维伦纽夫 :我已经介绍了我自己的一些变化(蓝色)。 在任何情况下,这篇文章仅仅是一个很基本的SE检查系统从一个普通用户的角度检讨。 如果你真的想了解GFW的工作,你应该阅读,如适当的研究论文,或 这一个。
。
图片:
1 - 禁止消息(调频)
2 - RESET连接(RC)
注:如果有人感兴趣,或有一些更多的信息共享,请把它在评论。 不幸的是,我的时间是非常有限的,所以我只跑了2个或3个方面为每个类A,B和C以上。 有可能是我忽略了的事情,我会很感激,如果你能指出来。


















15
!
你忘了一件事:
“在那里我看到周日操纵的结果不能被看作了。”
基于其新的颗粒过滤系统,思科,搜索实际上是建立数据库。 该系统是基于网页爬行的方法和基于用户调查的基础上。
这是最好的组合,它更快速,比仅依靠网络抓取。
[ 回复此评论 ]
15
!
我要补充:VPN的监视或篡改。 在奥运的日子里,我witopia旁边无法使用。
该公司拒绝参与有关深入的讨论,但他们清楚地告诉我:中国有可能被篡改的VPN的,但他们无法解码(谁知道)......
[ 回复此评论 ]
15
!
颗粒系统? MHH。 我不知道我理解的概念。 你的意思是从搜索获悉,“宪章”的搜索和寻找一个人的每日结果,因为人们通常不会一下就可以了,然后机器认为它无关,它消除了下一个搜索呢?
[ 回复此评论 ]
16
上午
也许有足够的审查PPL将开始使用Freenet的洋葱,网页代理,路由和许多更多的P2P程序,使仅仅是一个艰巨的任务,追踪一切。
recipy?
浪费网络+叽叽喳喳+闲聊+ Drupal的/ CMS服务器 - 客户端+电子邮件/即时通讯/ VOIP +洪流stream-server/client +新的DNS表=新的互联网骨干网?
[ 回复此评论 ]
18
!
@ ULN
对不起,我的意见是不够清晰。 它基本上是指以百万计的人作出的检索,被封锁的内容数据库。
我有感觉,他们的系统是基于以下的双方法:爬行机器人(类似于谷歌)的网站,以提前拦截攻击性的内容+阻断新的内容,对他们的“进攻性条款和文字数据库”为基础,当人们寻找新的链接,他们得到了北京处理。 基本上,任何在中国的北京的服务器上镜像,然后分析(,当然automotically第一,可能由人为操作广泛,如果需要采取进一步的措施)。
在过去,他们将阻止整个域,但现在他们是能选择性地阻断子域名和一个网站内即使具体环节。 这加强普遍的概念,它“可能只是”一个技术性问题,因为我可以访问其他网站。
YouTube是一个很好的例子这种行为。
[ 回复此评论 ]
18
!
毫米。 有趣的,我要观看机器人,怪异的访问我的网站看看,如果我能找到,这是国务院的一个。 如果我知道我的中国共产党好,应该很容易识别,它可能被称为“GreatWallbot”或“LiberationBot的”
回到您的评论:有许多方面,当局审查的内容和你说,他们有时只检查员在博客后(这是今天的情况时,我发现了一个在FM线程钢筋混凝土块):它是在这里 。
但有一个原因,为什么我还没有考虑这些事情,在我的岗位。 以上的小“研究”只集中在“搜索引擎审查”和这些搜索引擎在何种程度上与检查员合作。 像Youtube和FM的例子,我们在这里给一个不同的方面,不能被这些网站的所有者或控制的搜索引擎。
[ 回复此评论 ]
19
上午
“但有一个原因,为什么我还没有考虑这些事情,在我的岗位。”
我的意见是不是评论家,你做了什么有趣的是。 我只是想为它的乐趣的主题,以扩大对位...
[ 回复此评论 ]
19
上午
当然,所有这些信息中优秀文章詹姆斯法洛斯的覆盖前一阵子写它。
[ 回复此评论 ]
19
上午
哎呀。 当然,我想我忘了说声谢谢
是的,我知道这法洛斯的文章,这是辉煌的,我已经链接到它最近在另一篇文章。
[ 回复此评论 ]
1
上午
您可能感兴趣,我写了搜索引擎过滤纸。
http://ssrn.com/abstract=1157373
“百度从谷歌有一个不同的系统:它没有复位连接。 “
这是因为你没有通过过滤系统(GFW)的连接到百度。 如果连接到百度从中国境外,我可以触发的RC。 这也是为什么你得到RC当连接到谷歌。
区局你是由于过滤(GFW),而不是谷歌(。COM)。 Google.cn在中国境内的服务器,但你也可以连接到Google.cn的中国境外的服务器。 我发现最好手动指定IP,这样你知道什么/你在哪里连接。
另外,还有一些在搜索引擎结果的差异,为各种原因,其中之一是爬行的位置 - 如果它们建立索引,然后在中国境内的网站封锁(GFW)没有索引,不需要经过审查搜索引擎。
[ 回复此评论 ]
1
!
您好,非常感谢。 我下载你的文件,我发现它非常有用。
这部分您的评论,但我很惊讶:“这是因为你没有通过过滤系统(GFW)连接到百度。 如果从中国境外连接到百度,我可以触发的RC。“
1 - 基本上你说的话是在两个方向上的桂枝茯苓丸?? 因此,它不仅阻止传入的内容,但也从中国到外的内容。 如果这是真的,钢筋混凝土块,是在中国境内的服务器托管的内容只能被视为来自中国以外,反之亦然。 我觉得这是令人惊讶,因为它违背了中国的审查制度的目的:他们想阻止中国境内的显示内容,同时给予外(相对)开放的形象。 你确定这个GFW的双向?
2 - 此外,一个相关的问题,你肯定桂枝茯苓丸只适用于穿越中国大陆边境的内容,因此它是唯一的“边境管制”,还封锁内容在中国ciculating的反对。 我怀疑这是真的,例如在著名的exlplained
法洛斯的文章。 但我没有任何证据。
3 - 感谢上爬行过的信息。 但是我的方法是不同的。 我期待在最终用户端的检查,和我的问题是:什么是谷歌/百度的用户,当他们执行搜索? 无论是爬虫/服务器或其他技术原因,谷歌肯定知道如何理解和解决的关键是要找出:搜索引擎是consiously给最终用户操作的信息,是或不是。
在这个意义上,我发现非常有用的关于透明度的纸张点,再次感谢您的链接。
检查还审查其他更全面的职位,我写了(下面的链接)。
[ 回复此评论 ]