浏览主站 | 站长合租 | 新闻资讯 | 站长学院 | 站长盈利 | HTML教程 | 网址导航 | 站长周刊 | 会员投稿 | 滚动新闻 | RSS
发新话题
打印

[软件问题] 请问怎么知道蜘蛛来过你的网站呢?

本主题由 败家子 于 2008-9-10 14:09 设置高亮
对  楼上说的对      就是查看IIS日志  是最好的方法啦
下面介绍下应该怎么看

百度蜘蛛爬行检测代码诠释
作为一名站长,要有长期观看自己IIS日志的习惯,研究se爬行规律对于网站优化意义重大,特别是对百度蜘蛛Baiduspider的研究。本文解释一下百度蜘蛛爬行后返回代码,也算是海军对爬行代码的一次笔记.
代表的具体含义:
2xx 成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
根据查看IIS日志,得到百度蜘蛛反馈的情况来找回自己网站存在的问题,并加以改正,这样蜘蛛才会恋上你的温床的.




IIS日志百度蜘蛛注释200 0 64到底是啥?
IIS日志百度蜘蛛注释200 0 64到底是啥?
很多做SEO的朋友都会说是,进入审核.或者百度沙盒或者百度即将被K的预兆,当然.SEO海军也是这么认为的.今天在一个群里.和朋友探讨到这个问题.
很多朋友和做SEO的都是海军这么认为的.另外互联网也有其他的一些关于200 0 64 注释的看法如下
打开一个IIS的日志,我们在最上边大约第三行能够看到一个表头,像这样:
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
这是日志每行中每个字段的名称,我们看到的"200 0 64"是最后3个,那就是
sc-status sc-substatus sc-win32-status 这三个了,来看看这三个是什么东西:
sc-status:
HTTP协议的状态.HTTP协议的状态代码为200,这个可能大家不熟悉,但是,HTTP404找不到文件,HTTP500内部服务器错误,这两个状态代码大家应该很熟悉了吧? 不错,这个200,其实就是这个的一种,HTTP200就是文件被正常的访问了,只有这个数字是200以外的数字,才说明访问出现了错误(比如上面说的404文件找不到等).
sc-substatus:
HTTP子协议的状态.一般来说网站都是不使用子协议的,所以这个代码为0就是很正常的,我们完全可以不用管它.
sc-win32-status:
Win32状态.这个就是被很多人解释成说是是否被百度正常抓取的代码.除了这个解释之外,这个代码还有N多种解释,有的说是"不可用,打不开",有的说是"客户端传送到服务端的字节大小",真可谓天花乱坠.其实我们稍微懂点脑子,从字面意思就能够看懂.这只是表示客户端是否为32位系统的代码.如果被32位的系统访问,那么这里记录的就是0,如果被64位系统访问,那么这里记录的就是64……
总结上面的,再综合解释一下"200 0 64"和"200 0 0":
200 0 64:
文件被64位系统的访客或者蜘蛛正常访问或抓取.
200 0 0:
文件被32位系统的访客或者蜘蛛正常访问或抓取.
雨暮风华,有你更精彩!>>

TOP

查看服务器日志啊,用日志分析工具,或者就用记事本打开,搜索spider或者robot这样的字眼。

或者根据来访者的IP地址,搜索引擎的蜘蛛一般是固定IP段,比如220.181.19.*可能就是百度蜘蛛,216.239.33.*可能就是google蜘蛛

TOP

我也学习一下。

TOP

查看服务器日志啊,用日志分析工具,或者就用记事本打开,搜索spider或者robot这样的字眼。

或者根据来访者的IP地址,搜索引擎的蜘蛛一般是固定IP段,比如220.181.19.*可能就是百度蜘蛛,216.239.33.*可能就是google蜘蛛

TOP

学习了

TOP

非常的关系了 学习了 谢谢

TOP

空间里面可以下载访问记录的啊

TOP

最简单的方法  看百度快照的时间

TOP

不会。学习了

TOP

学习下,呵呵。。。。

TOP

发新话题