制约着搜索引擎抓取的重要的一个因素就是资源有限,并非是资源的来源有限,而且通过抓取之后的索引需要更大的资源来支持。你的网站对spider是否友好,决定的不在你,在于你必须符合最基本的架构。
一、硬件和带宽
1、硬件升级是一个问题
索引的数据放在什么地方,当然大型的服务器之中,需要建立机房,需要专业的维护人员,需要保持稳定性。硬件升级可不是一件需要投资的事情,这笔费用投入不是一般的开支。
2、巨大的资源访问消耗着带宽
不管是spider访问还是用户访问,需要消耗宽带的。
二、抓取有价值的内容
1、spider的世界
spider只是一个机器人式的智能的东西,通过爬行来获得对有价值内容的抓取。当然这个过程是非常繁杂的,对信息的搜集,保存,更新,就像蛛蛛一样到处爬行,最终把有价值的网页保存下来。
2、怎么判断有价值
即使我们人类,对有价值的判断也是有巨大的分歧的,但不用说psider这样的工具了,虽然达到人工智能的高度,毕竟是有一定的规则的。