新手如何简单的分析网站日志

如题所述

一、网站日志可以为我们做什么?
1、 可以分析爬虫抓取页面有效性(减少搜索引擎在一些噪音页面上:重复页面,低质量页面,空内容页面,404页面,不排名页面 的抓取频率);
2、排查网站页面中存在的404错误页面,500服务器错误等
3、页面重要内容是否被爬虫完整爬到并且快速遍历;
4、正确分辨蜘蛛爬虫
二、常见HTTP状态码解读
1、200代码,表示蜘蛛爬取正常
2、404代码,访问的这个链接是错误链接
3、301代码,永久重定向
4、302代码,表示临时重定向
5、304代码,客户端已经执行了GET,但文件未变化。
6、500代码,表示网站内部程序或服务器有错
接着,我列举一个网站日志的案例:

日志里的含义,可以大家看下网站日志中各个数据都代表什么意思,总之这个文件是记录的一天发生在网站上的一些行为。当我们拿到这么一个网站日志,我们就可以审视我们的日志,并且通过对日志文件分析解决网站存在的问题;
三、日志代码解读

从日志文件当中可以解读出两个部分内容:
1、搜索引擎抓取情况

从日志文件中,可以大家看到搜索引擎抓取了一些404页面及低质量重负页面(噪音行为)
备注:可以通过nslookup ip 识别蜘蛛的真假

/date-2016-01.html(低质量重负页面)
/author-1.html(低质量重负页面)
/downloads/(低质量页面)
/contact.html(死链接接),但这里有个问题,这个页面返回的状态码为200而不是404,但页面却跳转到404页面,从中可以发现服务器设置一定有问题;
所以,当我们有一些页面不希望他们抓取的时候,我们需要在robots中进行规范。规范robots一个重要的手段,就是robots.txt。爬虫纠偏,让爬虫花更多的精力放在我的详情页面上。

2、用户访问网站情况
关于用户网站访问情况, 主要分析用户访问网站行为轨迹及用户属性,大兵seo在这就不进行讲述
温馨提示:答案为网友推荐,仅供参考
第1个回答  2018-12-12
登录“FTP”账号,链接到网站数据,找到网站日志文件夹。(注意:一般情况下,网站日志所在文件夹都是与网站文件同级文件夹,且带有log字样。只有少数情况下,网站日志文件夹在网站根目录下。)
打开文件夹,下载日志压缩文件!(下载方法很简单,只要选中文件直接拖到电脑桌面,然后左下方的本地浏览下载目录的文件上“右键—传输队列”即可!)
解压下载的日志文件,而后将解压后文件的后缀改为“txt”
新建一个excel表格,并打开!找到顶端工具栏的“数据”工具
点击“导入数据”,默认“直接打开数据文件”,再选择“选择数据源”。
选中解压后的txt文档,并打开!
默认“其他编码”
选择“分隔符号”,并“下一步”;
勾选所有选项,然后“下一步”;
默认“常规”,并“完成”;
如图,网站日志哥数据项之间全部分隔开来;
接下来只要保留自己需要的数据项即可。删除不需要的数据项!(如图,仅保留了数据分析需要的访客ip、访问文件、访问状态码以及访客名称四项数据。)
选中访客名称一整列,然后点击“开始”栏目的“筛选”工具
点击访客名称一列上方的三角下拉按钮;
取消“全选”,找到百度蜘蛛的访客名称,选中并“确定”;
我们就可以得到日志当天百度蜘蛛访问网站的所有数据。
最后,该数据保存到网站每日分析日志中,楼主嫌麻烦的话可以选择搜外6系统(注意:每日更新原创内容的网站一般在分析日志的时候还需要保留时间数据。)
第2个回答  2020-07-14

相似回答