客服热线:400-962-6669 帮助中心 百推宝
微信

扫码关注百推宝微信

我们能从网站日志获取什么信息?

百推宝 2016-04-27 17:46:02 浏览 分享:
0

    众所周知,网站日志的功能是可以给我们提供浏览者浏览某网页的精准数据,给我们一个可以分析客户浏览习惯的方法,除此之外,我们还能从网站日志获取什么信息呢?

  一、我们希望重要的频道(大量流量着陆页面,高转化率,用户直接交易页面等)有更多的爬虫来抓取;

  二、我们希望在爬虫一定的抓取时间内,尽量少花精力放在一些无用的噪音页面上(重复页面,低质量页面,空内容页面,404页面,不排名页面,低转化页面等);

  三、我们希望爬虫在抓取页面的时候,尽量增加抓取的有效性,而不是重复抓取几篇相同的页面;

  四、我们希望爬虫不会被繁杂的URL参数所扰,不会进入无休止的爬虫陷阱中;

  五、我们希望每个页面的下载时间足够的快,这样,可以让爬虫在时间一定的基础上能够更多的抓取页面;

  六、我们希望爬虫都能够完整的抓到我们想让他抓的页面,不要抓到我们的隐私页面;

  七、我们希望日志中不要有太多的404,不要有无理由的跳转,不要有很多的500(服务器错误),这样的情况出现;

  八、我们希望那些更新频繁但是价值很低的页面不要吸引太多的爬虫精力;

  九、我们希望我们所有的产品,所有的品类,所有一切有用的东西都要被爬虫完整爬到并且快速遍历;

  十、我们希望能用碰到真正的爬虫,而不是一些模拟爬虫的机器人;

  十一、我们希望爬虫能够完整的下载到我们的robots.txt;

十二、我们希望爬虫可以根据我们入口的调整,robots.txt的限制引导,JS的设计等按照我们的要求进行爬取;


相关文章