规范标签是防止搜索引擎抓取重复内容的一种基本手段。它是在HTML代码中用于定义重复或类似页面主要版本的标签。简单来说,当存在相同或相似内容的不同URL版本时,可以使用规范标签指定哪个版本是主要版本,应该被搜索引擎收录。
规范标签通常位于网页的HTML <head>部分,是一行代码,访客看不到它们,但搜索引擎可以读取。例如,Kohl的网站在销售床上用品和浴缸的页面上使用规范标签来减少重复内容。
当搜索引擎遇到规范标签时,会将标签中的URL与正在抓取的页面URL进行比较。如果网址匹配,那么该页面将被认为是规范版本。如果网址不匹配,搜索引擎可能会忽略该页面的索引,并将链接权限分配给规范版本。
比如,在Kohl的页面中,浏览器栏中的URL是https://www.kohls.com/sale-event/bed-and-bath.jsp?cc=bed_bath-TN1.0-S-bedbath,而规范标签则标识了一个更简洁的版本:
<link rel="canonical" href="https://www.kohls.com/sale-event/bed-and-bath.jsp"/>
因此,搜索引擎可能只会索引不带“?cc=bed_bath-TN1.0-S-bedbath”参数的版本。
实施规范标签时,电商平台通常会包含自引用的规范标签。对于https://www.site.com/cat/prod-123.jsp,可以通过自引用规范标签来忽略不同类型的重复页面,如:
(1)跟踪参数:https://www.site.com/cat/prod-123.jsp?source=123,
(2)不同点击路径:https://www.site.com/cat/subcat/prod-123.jsp,
(3)重复的子域:https://shop.site.com/cat/subcat/prod-123.jsp,
(4)系统生成的不良网址:https://www.site.com/en/shop/c-ABC/p-123.jsp
可以为每个页面插入相同的规范标签,以忽略这些重复页面。不过,最好通过编程方式管理规范标签,这可能需要开发人员的参与。
规范标签还可以用于管理联合内容。即使设计或字体不同,文字内容相同也会被视为重复。例如,一个网站上的摘录链接到另一个网站上的完整版本。
如果没有规范标签,搜索引擎可能会根据首个发布页面、链接数量或其他算法来选择排名的页面。使用规范标签可以正确分配等级,并确保合作伙伴也使用它们。
除了规范标签,还有其他方法可以指定规范的URL,如XML站点地图、HTTP标头和301重定向。XML网站地图列出了搜索引擎要抓取的URL,如果使用得当,可以有效传递规范的URL。但是,许多站点可能无法正确执行站点地图,或者无法记录非规范的URL,从而使搜索引擎自行关联重复页面。
PDF文件和其他不包含HTML源代码的文件格式可以在HTTP标头中指示规范的URL。例如,如果卖家在网页和PDF文件上具有相同的文本,希望网页排名,可以在页面中放置自引用规范标签,并在服务器交付PDF文件时在HTTP标头的链接标签中使用页面的URL。
尽管规范标记只是建议,搜索引擎仍会根据相关性和权限信号来决定哪个页面将是规范版本。卖家可以使用URL检查工具,在Google Search Console中查看任何已验证可访问URL的规范页面。
301重定向是更有效的解决方案,可以命令搜索引擎取消索引旧页面,请求为新URL编制索引,并将旧页面的链接权限关联到新URL。301是命令而不是建议。