百度提到site指令其实并不准确,百度还建议大家利用百度的站长工具进行查看网站收录情况,下面是百度统计得到的数据,可以明显的看出百度并没有将网站索引完全删除,只是在7.29日有一定的索引减少,所以从这里看百度应该并没有对网站进行惩罚,可能的原因是服务器宕机时间过长,这段时间百度蜘蛛正好抓取的比较勤,造成百度蜘蛛对网站进行考察。
网站被K后索引量
由于网站的服务器LOG日志在解决服务器的时候丢失了,最近几天的LOG日志都存在问题,而且在最初设置服务器LOG日志统计的时候,就没有考虑对于搜索引擎蜘蛛的动作进行区分的统计,所以分析得到的结果都是把蜘蛛当做用户来进行的。其中抓取得到各种状态的页面有:
200页面 访问量113206 占比 85.173%
304页面 访问量9199 占比6.921%
404页面 访问量8981 占比6.757%
302页面 访问量812 占比0.611%
301页面 访问量425 占比0.320%
403页面 访问量179 占比0.135%
400页面 访问量76 占比0.057%
206页面 访问量26 占比0.020%
500页面 访问量8 占比0.006%
从这些状态码可以看出,网站整体还是比较不错的,但是错误访问页面的比例还是比较大,可以检查看哪些地方的出现错误页面,然后进行设置,引导蜘蛛和用户转向正确的页面。查看错误404页面,地方名酒网采取的措施是设置了404页面,也比较漂亮,然后进行利于用户的301跳转,跳转页面如下:
网站404页面
如果大家有关注404页面对于SEO的影响,就会知道过多的301跳转,特别是直接都跳转到首页会对搜索引擎蜘蛛的抓取有一定的影响,有时候跳转过快会让蜘蛛误认为首页也是一个错误的页面,观察发现seowhy,A5等比较好的网站都是没有做跳转,而是给用户返回的引导链接,当然,地方名酒网属于商城类网站,所需要的更多的是服务用户,所以寻找一些B2C商城做测试,如中关村在线,你也会发现他们都做了跳转,但是值得注意的是跳转的时间间隔稍微长一点,一般在5秒左右,而且404错误页面也充分利用来做推荐产品和链接导航的引导。
诊断结论:经过上面的几个方面的简单分析,简单推测就是网站应该没有被百度K站,K站也是一个属于“假K”的状态,重点在于考察网站服务器到底有没有恢复,之前我的博客空间遭到攻击也出现过类似的K站情况,后面在一个星期之内就恢复了。当然,恢复的过程中基本的工作是不能停的,例如高质量的外链引导蜘蛛来抓取网站,原创内容吸引蜘蛛索引,例如前面看到的网站索引量自7月29一直都在下滑状态,这个需要注意。
其次,有一个在服务器遇到问题,或者网站搬家转换空间的时候,当网页不能打开时,不要立即返回404,建议使用503状态,告知搜索引擎蜘蛛该页面临时不可访问,请过段时间再重试。因为地方名酒网之前的这个栏目表现比较好,收录也比较不错,那么得到的搜索引擎蜘蛛抓取量也是比较大的,而百度对于服务器宕机的问题反应也比较敏感,设置好503,这样就可以最小限度的出现被K的状况。
美国原生站群机房16C8C4C TG:@usabby