跟你对话我十分的困惑,因为你只能看不能摸。这世界最纠心的事情就是这种情况。你拿他一点办法也没有,只能找这么多途径来满足这种蜘蛛的网站抓取。
别说这样悲催,实是太悲催——网站不收录新文章。这是什么原因?你什么原因影响了网站正常的抓取呢?你很想知道吗,本人一一道来。
1、robots文件写得没问题
做网站这个你一定要重点对待,这太重要了。一切在看robots文件的内容,对网站排名优化无用的目录,还是屏蔽了吗。文章目录不能屏蔽,屏蔽了蛛蛛再也不能够抓取你的文章。
2、阅读文章的权限
你建站也知道,不同的程序CMS有不同的会员系统,可能你对会员有限制权限,即什么级别的会员能够看什么文章,这对收录不太有利,至少蜘蛛不会这样做,蜘蛛不会抓取、也不会登陆。
3、网站动态URL
什么叫动态URL、什么叫静态URL,简单的说就是带有问号、等号及参数的网址就是动态URL,动态URL不利于搜索引擎蜘蛛的爬行和抓取。
3、强制清除网站Cookies
部分站长为了让用户记住登陆信息,强迫用户使用Cookies如果为开启,则无法进行抓取访问,访问页面显示的也不会正常,这种方式会让蜘蛛无法进行访问。
4、各种跳转
跳转对搜素引擎来说,是种作弊行为。目前蜘蛛抓取只对301跳转比较友好,对其他形式的跳转都是比较敏感,例如:JavaScrit跳转、MetaRefresh跳转、Flash跳转、302跳转。
5、使用Flash设计网站
在网站页面使用Flash视觉效果是很正常的,比如用Flash做的Logo、广告、图表等,这些对搜索引擎抓取和收录是有问题的。首页是一个大的Flash文件,在蜘蛛抓取时HTML代码中只是一个链接,并没有文字,但可惜搜素引擎看不到,百度蜘蛛怎么抓取。