承接百度SEO优化白帽排名业务

搜索引擎是如何工作的,了解它的原理吧

2021-08-02 搜键科技
搜索引擎是如何工作的,了解它的原理吧

爬行和抓取几个策略,搜索引擎是如何工作的,了解它的原理吧。

1,爬行策略,深度优先,广度优先,只抓相对重要的页面。

2,如何吸引蜘蛛,包括网站页面权重,更新,外链,与首页距离。

3,爬行时的重复内容检测,百度检测到40%重复内容,大部分内容会被删除。

4,地址库。

5,避免蜘蛛陷阱,例如flash,session id,框架,跳转,动态url,js链接,登录,无限循环,强制使用cookie。

索引

1,提取文字内容,去停止词。如中文的“的”“得”“啊”等不影响语义的字。

2,消噪,提取主内容,消除公共内容,如导航文字、版权信息等。

3,去重,去除重复内容,特征字符串计算指纹。

4,中文分词,字典匹配,统计。

5,提取关键词信息。

6,正向索引。

7,倒排索引(真正排序的时候用到的方法,关键词对应文件)

8,链接关系计算,主要以Google PR值为主。

9,查询排序

10,初拾字集选择,只计算很小的一部分内容,根据连接权重的高低计算出排名,而不是内容的好坏。

搜索引擎是如何工作的,了解它的原理。

©CopyRight WWW.MINGLIPLUS.COM Inc All Rights Reserved.