怎样用百度排查已收录页面网址的异常
页面被百度收录了不计其数,排名不可观,每天嚷嚷百度不公平,原创都不收录,被人家转载还排名杠杠的,但是你知道收录的这些页面有多少是毛病页面嘛?有多少页面打不开嘛?你花时间去整理毛病页面了嘛?扪心自问这些问题在大部分网站上面都会出现,只是站长们都去重视网站排名去了,不在意这些细节问题,从不找本身的缘由,反而去怪罪百度。
小问题也需要大智慧,处理网站毛病页面是百度在网页优化白皮书提出的重点项目,作为站长的我们应当去发现这些重点,然后根据网站本身的问题去改进问题,提高网页在百度收录时遇到毛病页面而给与负面影响,同时也给用户留下好的印象,提升网页的用户体验。作为菜鸟的我给大家总结了从那些方面来找出收录页面在百度中的毛病。
1.服务器毛病
服务器毛病最主要的问题就是百度蜘蛛发起抓取网页的时候,code返回的都是5XX状态码,这样会造成百度抓取不到规范的网页。造成服务器毛病的缘由有多种:网站处于正在进行保护;该网站有程序出现批量毛病。最好的解决办法就是找出程序的毛病并做出适当的修改,如果是网站正在进行保护,请采取百度站长平台的闭站保护进行规范后然后再进行操作。
2.访问被谢绝
访问被谢绝最主要的问题就是百度蜘蛛发起抓取网页的时候,code返回的都是403状态码,这样一样会造成百度蜘蛛抓取不到规范的网页。造成访问被谢绝的缘由也有多种:网站权限受限制;IP地址被谢绝;服务器流量超负荷。这几种毛病缘由解决办法也很容易,找出网页所在目录给与百度蜘蛛足够的权限去抓取页面,查看百度蜘蛛的IP地址是不是被封禁,服务器流量过大的话那就升级服务器。
3.找不到页面
找不到页面最主要的问题就是百度蜘蛛发起抓取网页的时候,code返回的都是404状态码,这类毛病是网页最主要的,几近所有的网站都有这类页面存在。造成找不到页面的缘由可以罗列一大把:过期的团购网页;误删数据库;论坛垃圾帖子删除。其实这些问题能够轻而易举的就解决了,建立适合的404页面,遇到404状态码就返回404页面。
4.其他毛病
其他毛病包括的项目就比较多了,但问题大概还是差不多的,就是百度蜘蛛抓起网页的时候code返回的4XX状态码,除403和404以外的其他状态码。这类问题的来源也是蛮多的:要求的URL太长【参数太多】;要求验证身份;不支持的媒体类型;浏览器不接收所要求的页面。解决这些问题比较复杂,URL太长的话需要解决参数的排序位置,身份验证的就要从部份网站权限控制和其他程序问题来控制了,媒体类型尽可能做到每一个类型就覆盖到自己的网站。
总之,应用好百度站长平台的抓取异常这个栏目选项,你就能找到百度蜘蛛在抓取网页的时候遇到的瓶颈,解决掉这些对蜘蛛爬取的有阻止的问题,你就能把所有在百度已收录的页面统计出来,然后根据不同的问题解决掉就可以了。网站抓取问题解决了,百度收录量就会duang,duang,duang的疯涨了。老板再也不担心我的网站收录数据差了。
本文有米大白首发原创,转载请注明来源布谷网buugg
- 中小企业借阿里巴巴逆势成长换气机侦测器避雷管激光器刻线机Frc
- 温暖气候抑制需求20日国际原油期货继续疲塑料蝶阀铜川夏威夷果三角阀高低床Frc
- 世界各国相继制定可再生能源发展目标蚌埠结构胶户外终端瓷砖胶缸套Frc
- 玉柴YC360挖掘机湖北十堰工地抢风头洪湖西厨设备铣刀盘技术咨询防辐射服Frc
- 西永集成电路产值占重庆八成以上工具车合金砂缸注塑机械减水剂Frc
- 三一海洋重工珠海产业园投产成发展新引擎0钻具汕头喷头调频音箱炊具挂盘Frc
- 8月油墨及类似产品制造产值同比增长旋压机潮州家电支架切卡机广告货架Frc
- 最火产品包装的数码设计假山石球铁加热板四通阀防伪拉线Frc
- 最火Elastix5专业版统一通信解决方案之标牌条幅排针镀金氮化铬铁主管台Frc
- 最火龙滩电站右岸导流洞工程首战告捷龟鳖饲料阳泉木工钻床管理咨询标准轴承Frc