Google蜘蛛实现自动填表,抓取更多数据
Google的研发能力确实非常强大,据国外的媒体报道,google公司最近开始在网页抓取蜘蛛中实施一项新技术:他们可以让蜘蛛自动填写某些网页中的表格,并且自动提交到服务器上,对反馈页面进行抓取,从而获取更多有关这个网站的详细信息。
详细解释:
一般来说,表格(Form)是网站方面用来收集用户信息的一种方式。比如用户申请成为注册会员,需要提交相关的身份资料。表格将会把这些数据提交到服务器上,服务器上的网页将会给出下一步提示。
在过去,谷歌公司的蜘蛛机器人并不会填写表格,因为也无法知道下一步的提示网页内容。
最近,谷歌公司对抓取系统进行了升级。机器人将会根据表格中各个项目的名字,自动填写数据提交给服务器,这样,服务器的反馈页面也将被机器人所抓取,谷歌将会获得这个网站的更多信息。
有媒体分析认为这会对网站数据安全造成影响,我觉得google能给用户更好的体验,提升自己的搜索结果质量,而网站同样因为质量的提升而受益。
如果你不愿意自己的网站被google自动填表,google也给出了一个解决方法:可以在robots.txt文件中,对于是否允许谷歌提交表格作出规定,google不会违反网站管理员的意愿。
2
Posted at 08/04/13 by Admin from