帝国cms蜘蛛爬行记录 帝国cms采集教程

在linux系统下,如何查看百度蜘蛛爬取日志

这个要根据你容器的不同来决定的,

网站设计制作、成都做网站的开发,更需要了解用户,从用户角度来建设网站,获得较好的用户体验。成都创新互联公司多年互联网经验,见的多,沟通容易、能帮助客户提出的运营建议。作为成都一家网络公司,打造的就是网站建设产品直销的概念。选择成都创新互联公司,不只是建站,我们把建站作为产品,不断的更新、完善,让每位来访用户感受到浩方产品的价值服务。

默认的路径是你安装时候指定的

如果用的LNMP之类的安装包

你可以在SHELL下

whereisnginx

找到相应的路径之后

在NGINX下的CONF文件夹里看配置文件,日志文件如果记录了话

在配置文件里有路径的,这个还是比较麻烦现在的都是使用系统类似的有dedecms,wordpress,帝国cms,搜外6系统可以直接在根目录下或者功能统计里面直接查看百度蜘蛛爬取日志。

如何查看百度蜘蛛爬行记录

查看百度蜘蛛爬行记录的方法:

第一,前往空间服务器,下载网站日志。

第二,打开网站日志文件,搜索:Baiduspider。

百度(Baidu)爬虫名称:Baiduspider

第三,鉴别百度蜘蛛的真伪。

由于很多站长工具会模拟百度蜘蛛的名称来爬抓网站,因此,需要我们鉴别百度蜘蛛的真伪。

鉴别方法:

开始—运行—输入 cmd ,用命令nslookup +ip

只要是百度的IP段,代码中会有出现:name:baiduspider,如果没有出现,那就不说不是真的百度IP段

第四,可以通过日志工具来查看网站日志。例如:光年日志。

如何查看蜘蛛访问网站的记录

对于很多做网站的新手来说,都没有经过系统地授课进行网络技术和建站知识学习,做网站都是靠自学,遇到难题在论坛发帖提问,更不会懂得网站优化,对于较基本操作——通过网站日志看蜘蛛来访情况都不知到哪里看,怎么看。前两天看到很多人发帖提问,回复者的答案却比较精炼,不具体,提问者还是云里雾里的,现我就以自己的网站来系统地操作一次,提交给大家参考,有说错的地方,请批评指正。

1、打开FTP登录软件,我用的是FlashFXP,登录空间FTP

登录FTP后,你会发现根目录下有一个wwwlogs文件夹,(有的是weblog,注:不同的服务器空间生成的日志文件目录名称不一样,仅供参考,一般文件夹中包含Log字符的就是日志文件夹)。

2、打开wwwlogs文件夹后,里面有一些以日期格式特征为文件名的.gz后缀结尾的文件,这些就是我们需要下载到本地的日志文件。

3、下载到电脑桌面后,解压缩打开,里面是一个记事本格式的文件,打开文件,看到的是下图这样的代码,我下载的是3月7日的那个文件。

4、分析代码

上图1是百度蜘蛛的IP地址;

2是蜘蛛来访日期时间(2012年3月6日1时21分22秒),3月7日的日志文件记录的是从3月6日凌晨开始,至3月7日1时11分39秒整个时间段的n多次来访记录);

3是百度蜘蛛baiduspider

4是我网站被访问的网页地址;

5是sogou 搜狗蜘蛛的来访,同样也能看到时间和被访网页。

如果是简单的查看,您可以在记事本中搜索baiduspider ,如果想精确分析,可借助一些专用的分析软件。分析下哪些时间段百度蜘蛛来的最频繁,那么我们就在这个时间段更新我们的网站内容,很容易被百度收录的。

通过分析蜘蛛来访纪录,可以了解本站的大体情况,而不用再为百度不放出内页或者不收录的问题而苦恼了。

蜘蛛来访正常,可以确切的说,搜索引擎对你的站很友好的,坚持更新自己的网站,会有不错的收录的。

注:有些共享IP空间可能不支持日志功能,对于独立ip虚拟主机则提供每天的日志下载,而实在没有可以日志功能的空间可以参考使用蜘蛛爬行插件的一些方法进行分析。


本文名称:帝国cms蜘蛛爬行记录 帝国cms采集教程
文章位置:http://pwwzsj.com/article/doiepce.html