让搜寻引擎缓存页面来教你SEO
发布日期:2015/5/27 16:17:56
何谓缓存页面?
说到缓存页面,相信对于SEO从业人员一定都不陌生,通常SEO从业人员不论是在操作Google或是Yahoo或是Bing搜索引擎时,都会透过个搜索引擎的缓存页面来确认蜘蛛来访的时间,以及整个页面的关键词分布情形。
 
 
 
在详细说明之前,我们先来看看维基百科的定义:缓存页面(英语:Web cache)又可称为页缓存档、网页快照是搜索引擎的一项特色功能。搜索引擎在收录网页时,对网页进行备份,存在自己的服务器快取里,由于页缓存档是储存在搜索引擎服务器中,所以检视页缓存文件的速度往往比直接存取网页要快。页缓存档中,搜寻的关键词用亮色显示,用户可以点选呈现亮色的关键词直接找到关键词出现位置,便于快速找到所需讯息,提高搜寻效率。
 
 
 
从哪里可以观看缓存页面?
 
 
当用户输入一段关键词时,我们可以在Google搜寻列表页(SERP)上看到许多笔数据,这时我们就可以点击网站网址列旁边的向下箭头,来观察页缓存档啰~~
图一.Google搜寻风衣外套时的搜寻结果图一.Google搜寻风衣外套时的搜寻结果图二.Bing搜寻雪纺上衣时的搜寻结果图二.Bing搜寻雪纺上衣时的搜寻结果
缓存页面有哪些部份需要注意?
 
 
?         时间戳:可以提供SEO从业人员来判断搜索引擎蜘蛛是否来访过网站,以及何时来访
?         关键词分布状况:从下面两张图可以观察到Google与Bing的差异在哪,不过原本Google的缓存页面与Bing是相似的,在上个月之前就被Google突然拿掉了,毕竟Google本身就不太推崇站长操作SEO了(笑)
图三.Google缓存页面图三.Google缓存页面图四.Bing缓存页面图四.Bing缓存页面
不过,相信上面的介绍已经是许多站长会使用的观察方式,所以,以上纯属废话(被殴),开玩笑的啦,我们还是要照顾一下业主或是刚踏入SEO领域的营销人员啰(理直气壮),但接下来我要谈论的是在我操作的SEO过程中透过缓存页面发现一些问题的经验。
 
 
 
缓存页面经验谈
 
 
案例一:我曾遇到一个状况是,从缓存页面里面发现网站为甚么原本有的天区(header)以及左侧导览都没有被搜索引擎cache到(也就是说整个网站只存在产品介绍那个区块),由于这个状况会影响到页面收录的程度,所以必须要去找出原因为何!
图五.网站架构示意图图五.网站架构示意图
透过缓存页面的原始码,我们发现到由于网站宣告为DOCTYPE XHTML 1.0 Transitional规范,故本身语法的要求就比较严谨,所以XHTML所有标签都必须闭合,也就是说开始标签要有相对应的结束标签。只有少数卷标是在开始卷标末尾加入斜线,比如<img … /> 、<br />。而原始码当中就出现了上述的问题,<script>的呼叫语法缺少了闭合卷标,所以后方原始码几乎被认为是Javascript的程序代码(搜索引擎蜘蛛会忽略),直到碰到下一组闭合</script>为止。
图六.红字为缺少的闭合标签图六.红字为缺少的闭合标签
案例二:最近在观察Bing的搜寻结果页面时发现到许多网站的缓存页面显示不完全,主要问题在于原始码都不够简洁,现阶段Bing的缓存页面有限制大小的问题,所以当原始码过长,后面的程序代码就不会被缓存起来,也就是说在操做SEO的时候无法观测到关键词分布的情形。
图七.momo购物网缓存页面图七.momo购物网缓存页面
另外,此状况对于使用ASP.NET技术制作的网站更为困扰,原因在于ASP.NET会产生一段又臭又长的__VIEWSTATE,当蜘蛛碰到__VIEWSTATE之后就不会在做缓存的动作。
图八.OB严选缓存页面图八.OB严选缓存页面
解决方法一:将__VIEWSTATE移至</form>之前,避免__VIEWSTATE过大导致速度变慢,以及变面搜索引擎找不到正确的数据。
解决方法二:禁用__VIEWSTATE的功能,但会牺牲掉ASPNET的方便性。
 
 
 
案例三:使用meta标签来控制缓存页面,最近有看到一个案例是使用meta中的Pragma以及cache-control来控制缓存页面(如下图),导致无法观测到时间戳以及关键分布状况,所以请务必小心使用此语法,不希望被搜索引擎Cache的页面在使用即可。
图九. meta卷标来控制缓存页面语法图九. meta卷标来控制缓存页面语法
结论:其实缓存页面对于SEO从业人员只是一个参考的指标,并非绝对,但就以案例二而言,虽然无法观测到关键词分布情况,但不代表搜索引擎真的没有爬到内容,所以不必太过紧张,但须注意其中的一些微小细节,例如案例一的状况,相信缓存页面一定能够帮助站长所多~ 转自awoo SEO研究团队