SEO Spider是一个功能强大且灵活的网站爬虫,能够有效地抓取小型和超大型网站,同时允许您实时分析结果。它收集关键的现场数据,以便SEO能够做出明智的决策尖叫青蛙 SEO蜘蛛可以让你快速抓取,分析和审计一个网站的现场搜索引擎优化。
在使用尖叫青蛙SEO的时候,对于不熟悉的人来说会出现一些问题,macw小编今天就给大家整理了一下Screaming Frog SEO Spider Mac版的常见问题,希望对你有帮助!
导入日志
1.为什么日志文件分析器不导入我的日志文件?
最可能的原因是您要导入的文件不是日志文件,或更具体地说不是访问日志文件。请阅读我们的日志文件简介指南,其中提供了受支持的日志文件格式的示例,以便您可以与自己的日志文件进行比较。
导入的不是日志文件的常见格式是:
- CSV文件
- JSON文件
- Apache错误日志
日志文件分析器支持W3C和Apache格式的日志文件。这些日志由3种最流行的Web服务器生成:Apache,IIS和Nginx。无需指定日志的格式,日志文件分析器将在您上载日志时自动检测到该格式。
2.支持哪些日志文件格式?
- WC3
- Apache和NGINX
- Amazon Elastic Load Balancing
- HA代理
- JSON格式
3.为什么我不能导入CLF格式的 Apache日志文件?
Apache通用日志格式(CLF)通常是为许多不同的Web服务器配置的默认格式。
不幸的是,这种格式没有提供用户代理字段,而该字段是日志文件分析器提供的分析的组成部分。
您将必须重新配置或要求Web服务器的管理员重新配置日志格式字符串以提供用户代理字段。
这是所需的典型NCSA日志格式行:
“%h%l%u%t \”%r \“%> s%b \”%{Referer} i \“ \”%{User-agent} i \“ ”
4.支持的最大日志文件大小是多少?
日志文件分析器使用数据库来存储数据。因此,可以存储的日志量将受到硬盘驱动器大小的限制。性能也将受到磁盘速度的限制-SSD比旋转磁盘的性能更高。
网站的大小不是一个相关因素,而是您的日志文件中有多少数据。一个小型但繁忙的站点可能会比没有大量流量的大型站点具有更多的日志事件。
我们经常会导入数GB的未压缩日志文件,而不会出现问题。您请求数据的时间范围越大,必须考虑的事件越多,响应速度就越慢。
5.如何处理具有多个协议和/或域的日志?
如果您的访问日志同时包含http和https流量的条目,但这些行不包含协议,则日志文件分析器无法知道哪些行用于http,哪些行用于https。如果您的访问日志包含多个域的条目,则同样如此。这些都是非常重要的日志文件配置问题。如果未指定协议和/或域,则将要求您提供。
要包括Apache样式日志的协议和域,请求行应为绝对URL。而不是:
[01/Jan/2017:00:00:01 +0000] "GET /seo.html HTTP/1.1" 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
完整的协议和域将出现在每一行上:
[01/Jan/2017:00:00:01 +0000] "GET http://example.com/seo.html HTTP/1.1" 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
这样,日志文件分析器可以清楚地看到每一行的协议和域。
对于W3C日志,您需要包括cs-protocol(高级日志记录IIS所需的字段)以及cs-host或x-host-header。
6.没有导入任何事件,没有与所选用户代理匹配的事件"是什么意思?
日志文件分析器会丢弃所有事件(日志行),其中用户代理与为项目配置的事件不匹配。默认情况下,日志文件分析器仅导入“启动”用户代理的事件。如果您收到此消息,则可能是您导入了一个日志,其中包含其他用户代理(Chrome / Firefox等)的事件,但不包含任何Bot用户代理(Googlebot / Bingbot等)的事件。要禁用所有用户代理过滤,请创建一个新项目,并在创建新项目时取消选中“过滤用户代理”选项(在“用户代理”选项卡下)。仅在创建项目时可以设置此选项。
日志文件分析器结果
1.为什么看不到所有流量?
默认情况下,日志文件分析器仅存储来自已知搜索机器人的事件。这样可以最大程度地减少导入的事件数量并加快分析速度。如果要查看所有事件,请在创建新项目时取消选中“过滤用户代理”选项(在“用户代理”选项卡下)。仅在创建项目时可以设置此选项。
2.为什么数字与 Google Search Console不同?
- Google Search Console(GSC)号适用于所有Google User Agents,“日志文件分析器”中显示的数字是基于每个User Agent的,并不包括所有的Google User Agents。
- GSC数据是使用太平洋夏令时间(PDT)计算的,但是默认情况下,日志文件分析器使用UTC。UTC比PDT早7小时。您可以通过转到“项目>设置”并从下拉菜单中选择UTC-07:00来调整UTC偏移量以匹配PDT。
- GSC中的“每天抓取的网页”是所有请求。如果请求相同的URL 10次,则将其视为10页。
- 您的日志可能来自位于缓存后面的Web服务器,因此您看不到所有请求。
- 您的站点可能在多个服务器之间实现了负载平衡,并且尚未从所有服务器导入日志。
3.为什么我的结果中缺少某些字段?
日志文件分析器只需要很少的信息即可导入日志:时间戳记,URL,响应代码和用户代理。所有其他数据是可选的。如果看到“平均响应时间”为0,则这是因为导入的日志文件不包含此信息。要验证这一点,您可以查看导入的日志文件以查看其中包含的内容。如果您不熟悉,请查看我们的帖子SEOs日志文件指南。
要将丢失的数据添加到日志文件中,您将必须更新日志配置设置,您的Web服务器管理员会熟悉这些配置设置。日志文件分析器支持的日志格式在与SEO日志文件指南链接的每个特定日志文件格式中都有详细说明。
4.为什么我看到URL的响应代码不一致?
Screaming Frog日志文件分析器显然在一段时间内直接从服务器日志中分析数据。因此,URL可能在历史上已经被破坏,随后被修复,因此也解释了为什么它具有不同或“不一致”的响应。
要记住的另一件重要事情是,如果您上载了带有相对URL的日志文件,并且必须在导入时提供站点URL,则非www。和www。URL的版本将被汇总。因此,如果这是导入时提供的地址,则https://screamingfrog.co.uk和https://www.screamingfrog.co.uk的事件将汇总到https://www.screamingfrog.co.uk。非www。版本可能设置为301重定向到www。版本,因此,一半的响应重定向,而另一半则提供200条响应。这就是为什么我们通常建议为日志配置绝对URL。
但是,您可能还会发现服务器在负载下传递的响应不一致。
5.为什么在浏览器/ SEO Spider中看到与日志文件分析器相比不同的响应代码
日志文件分析器从日志文件中读取响应代码并显示它们。如果这些与您使用Web浏览器或SEO Spider进行检查所看到的有所不同,则需要检查一些内容。
- 某些页面根据用户代理,Cookie等的不同而有不同的响应。如果您查看URL的响应代码的历史记录,请单击下部窗口窗格中的“事件”选项卡,响应代码是否有所不同?
- 您为正确的域导入的日志是否正确?如果您必须在导入过程中提供协议和域,则存在两个潜在问题。日志可能同时适用于站点的http和https版本,或者日志可能适用于多个域。
视窗
1.为什么出现黑屏?
如果日志文件分析器用户界面没有为您呈现,那么很有可能您遇到了这个Java 错误。根据我们的经验,这似乎是Intel HD 5xx系列图形卡的问题。我们最近没有这些,所以可能是驱动器更新将有助于解决此问题。
如果不是,请关闭SEO Spider,然后在文本编辑器中打开以下文件:
C:\ Program Files(x86)\ Screaming Frog Log File Analyser \ ScreamingFrogLogFileAnalyser.l4j.ini,
然后在-Xmx行下添加以下内容:
-Dprism.order = sw
(您可能在这里存在权限问题,因此复制桌面,进行编辑然后再复制回来可能会更容易)。
否,当您启动日志文件分析器时,用户界面应正确呈现。
2.为什么在安装时出现“打开文件时出错写入"?
右键单击安装程序,然后选择“以管理员身份运行”,尝试以管理员身份运行文件。或者登录到管理员帐户。根据公司的设置,您可能需要向IT部门寻求帮助。
以上就是MacW小编为大家带来的“Screaming Frog SEO Spider常见问题解答”,本文关键词:“尖叫青蛙,SEO,Screaming Frog SEO Spider常见问题”,链接:“https://www.macw.com/news/742.html”,转载请保留。