租用百度超级蜘蛛池,快速增加网站收录,提升您的网站排名!!!联系QQ:928599229
当前位置:蜘蛛池 > 蜘蛛池 > 详细页面

一秒读懂网站日志中百度蜘蛛的访问详情

发布日期:2020-10-25 11:28:15 作者:超级蜘蛛池 来 源:www.ysmcp.cn
     先说一下网站日志,就是一个文本文件,是由网站服务器端自动生成的,文件的后缀名为log,大小随着网站被爬取的次数决定。这个文件里面详细记载了网站的访问详情,做为一名合格站长,如果是需要查看访问统计数据,那用51.la或者百度统计工具就可以了,但是如果你想查看各搜索引擎的蜘蛛是否准时来爬行自己的网站,那就要学会自己查看网站日志文件了。下面小编结合网站实例给大家介绍一下分析方法:

     首先利用FTP工具登录服务器端,一般在服务器根目录之下存在一个logs文件夹,这里面装的就是网站日志,当然不同的服务器类型,日志文件的文件夹名称和我介绍的不一样,但没关系,只要认清日志文件的扩展名是log。


网站日志分析

进入日志文件夹,你会发现,日志文件是按每一天的访问情况为一个文件保存的:其实这里可以进行设置,让服务器按照规定的间隔时间分割日志文件,一般都是按天来分割,这样分析比较清楚。而且服务器里面日志的保存也是可以设置的,一般情况下,可以保存近三天的日志,供自己分析就足够了。
下面我们随机下载一天的日志文件,用Windows文本工具打开该日志文件,会看到一堆酷似代码的字符,祝文件大小打开速度也不同:


网站日志分析

注意看有背景的这一小部分,我用CTRL+F搜索功能查找baiduspider,好吧,为什么要查找baiduspider,这里先普及一下关于搜索引擎蜘蛛的一点小知识,各大搜索引擎的蜘蛛都有名字:

百度的叫baiduspider;

360的叫360Spider;

谷歌的叫Googlebot;

微软的叫bingbot;

搜狐的叫Sogou web spider;

腾讯的叫Sosospider;

因为国内主要是以百度为优化对象,我们来看看关于百度蜘蛛爬行记录的信息分析,在日志记录中随便找一个百度蜘蛛的信息:

42.236.10.71 - - [03/Mar/2017:21:28:19 +0800] "GET / HTTP/1.1" 200 34656  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 QIHU 360SE; 360Spider"

怎么解读这些信息呢?蜘蛛IP--【访问时间】“获取路径”HTTP反馈值200 反馈字节数34656 百度蜘蛛标记。

好吧,这里面获取路径与HTTP反馈值是非常重要的信息,200为正常读取,读取了5374个字节。我们再分析一条记录:

220.181.51.118 - - [07/Sep/2012:09:54:15 +0800] "GET /product/disp.php?id=93 HTTP/1.1" 301 249 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

认真看获取路径这一项,因为我的网站是老域名,原来的主人被收录的路径/product/disp.php?id=93,百度蜘蛛同样爬行,结果我的 新网站里肯定不会有这一条信息,由于HTTP反馈了301,而301代表已移动 — 请求的数据具有新的位置且更改是永久的。其实这对于我来说是一件好事,蜘蛛爬行不通,知道这条收录记录已经失效,慢慢就会从百度的收录数据库中删除。现在百度正在审核我的新站点,一天爬行只有23次,也很不错了的。

好了,大家是不是可以举一反三的学会看其它搜索引擎蜘蛛的爬行记录了呢?下次,笔者将重点再分享一下HTTP的反馈值,大家通过这个反馈值可以获悉自己网站的健康状态哦,非常重要。

        当然,有朋友会说为什么不利用一些日志查看工具,人工手动察看费时费力,是的,有些不错的工具例如爱站日志分析工具,loghao在线分析工具等等都可以提供更便捷的操作,今天笔者所述内容旨在用最初级的方法教会大家学会察看自己网站的日志。希望以上内容能对你有点帮助。
以上就是小编分享给大家的分析日志的方式方法,其实并不难,你只需操作一遍就能够掌握了。


ysmcp.cn百度超级蜘蛛池出租Copyright 2019 版权所有