爬行和抓取几个策略,搜索引擎是如何工作的,了解它的原理吧。
1,爬行策略,深度优先,广度优先,只抓相对重要的页面。
2,如何吸引蜘蛛,包括网站页面权重,更新,外链,与首页距离。
3,爬行时的重复内容检测,百度检测到40%重复内容,大部分内容会被删除。
4,地址库。
5,避免蜘蛛陷阱,例如flash,session id,框架,跳转,动态url,js链接,登录,无限循环,强制使用cookie。
索引
1,提取文字内容,去停止词。如中文的“的”“得”“啊”等不影响语义的字。
2,消噪,提取主内容,消除公共内容,如导航文字、版权信息等。
3,去重,去除重复内容,特征字符串计算指纹。
4,中文分词,字典匹配,统计。
5,提取关键词信息。
6,正向索引。
7,倒排索引(真正排序的时候用到的方法,关键词对应文件)
8,链接关系计算,主要以Google PR值为主。
9,查询排序
10,初拾字集选择,只计算很小的一部分内容,根据连接权重的高低计算出排名,而不是内容的好坏。
搜索引擎是如何工作的,了解它的原理。