XML 站点地图:帮助 Google 发现您的网页并改进您的网站 SEO
您的站点地图应该包含哪些内容?你怎么创建它?你怎么告诉搜索引擎它呢?让我们继续我们自己的发现过程 - 从官方 sitemaps 协议和 Google 的文档 - 了解如何使用 sitemaps 来获得更好的 SEO
发现是 SEO 的第一步——如果搜索引擎无法发现您的内容,它永远不会抓取和索引它,这意味着搜索者将无法访问它。XML 站点地图是一个可选但功能强大的工具,用于支持发现过程(以及扩展,您的技术 SEO 工作)。
但是,您的站点地图应该包含哪些内容?你怎么创建它?你怎么告诉搜索引擎它呢?让我们继续我们自己的发现过程 - 从官方 sitemaps 协议和 Google 的文档 - 了解如何使用 sitemaps 来获得更好的 SEO。
什么是 XML 站点地图?
在 Google 和其他搜索引擎可以抓取和索引您的页面之前,它们必须首先发现它们。站点地图是一个文档,它通过告诉搜索引擎网站上可供抓取的页面来促进发现过程。
尽管站点地图可以有不同的格式,但最常见的是 XML(可扩展标记语言)——一种使用标签来“标记”和构建信息(有点像 HTML)的语言。XML 的一个好处是,人和计算机程序都可以轻松读取它。
XML 站点地图遵循 Google、Microsoft 和 Yahoo 都支持的站点地图协议。该协议定义了站点地图可以包含的内容、如何格式化,甚至如何将其提交给搜索引擎。
sitemaps 协议的起始时间是 sitemaps.org,描述了 sitemaps 的 XML 方案
XML 站点地图如何帮助您的 SEO
搜索引擎发现网站上网页的主要方式是跟踪反向链接。这些可以是来自您自己网站的链接(内部链接),也可以是其他网站上的链接(外部链接)。
搜索引擎可能很难找到某些页面。“孤岛页面” 是指没有任何指向它的入站链接的页面,这意味着搜索引擎永远不会通过跟踪链接来发现它。您的网站甚至可以包含一小组仅相互链接的孤岛页面。
显示网站上孤岛页面的图形,除了指向其他孤岛页面之外没有内部链接
搜索引擎面临的另一个挑战是了解页面的更新时间。尽管搜索引擎会定期重新访问抓取的页面以查看内容是否已更改,但这对搜索引擎或网站所有者来说都不是特别有效。
站点地图解决了这两个 SEO 问题:它们告诉搜索引擎可以抓取的页面,甚至是孤岛页面。而且,它们还可以告诉搜索引擎页面上次发生重大更改的时间,从而提高抓取效率。
这并不是说站点地图可以取代有效的内部链接政策。请记住,链接不仅有助于发现,还可以告诉搜索引擎页面之间的关系——这是站点地图无法做到的。
站点地图的类型
您可能认为“sitemap”和“XML sitemap”是同义词,但 sitemaps 协议定义了三种有效的 sitemap 格式:
· XML 格式
· 文本文件
· 联合源
Google 和其他主要搜索引擎可以使用这些格式中的任何一种。在大多数情况下,您需要一个 XML 站点地图,但如果您的平台或 CMS 没有为您提供此功能,请考虑其他两种格式:
· 文本站点地图 是一个文本文件(带有 .txt 扩展名),其中列出了您的所有页面 URL,每行一个。它不能包含任何其他信息。 文本站点地图很容易创建,因此如果您的站点非常小并且很少添加新页面,这是一个不错的选择——尽管在这种情况下,您可能根本不需要站点地图。
· 联合源 是一种分发内容(尤其是新闻内容)的方式。尽管 Feed 不如以前流行,但许多平台仍然以 RSS 或 Atom 格式提供它们。
Google 搜索中心关于构建和提交站点地图的网页的屏幕截图,显示了站点地图类型(包括 XML、RSS/Atom 和文本站点地图)的优缺点。资料来源:谷歌。
新闻网站经常为单个类别(或“频道”)创建源——这是《卫报》针对其文化类别的 RSS 源的开头:
《卫报》的“文化”类别的 RSS 源,显示频道信息和第一项的开头
使用 Feed 作为站点地图的一大缺点是它通常只包含最新的内容。尽管如此,它仍然可以帮助搜索引擎发现该内容(以及通过内部链接发现您网站上的其他内容)。
本文的其余部分重点介绍 XML 站点地图,因为这些是最常见和最通用的站点地图类型。
XML 站点地图应该(和不应该)包含什么
您的站点地图应包含您希望搜索引擎抓取(并随后显示在搜索结果中)的所有页面的 URL。每个页面都有自己的一对开始和结束 <url> 标签,其中包含一个指定页面位置的 <loc> 元素,如下所示:
<url>
<loc>https://example.com/myurl1/</loc>
</url>
<url>
<loc>https://example.com/myurl2/</loc>
</url>
有很多页面不应该包含在你的站点地图中,例如:
· 不是内容的规范版本的页面
· 被 robots.txt 屏蔽的页面
· 设置为 noindex 的页面
换句话说,您不希望 Google 尝试抓取和索引的页面。
该 <loc> 元素是必需的,但您可以在每个 URL 中包含其他可选元素,以便为爬网程序添加更多指导:
· <lastmod>:页面上次被显著修改的日期
· <changefreq>:页面可能更改的频率(例如,“每月”)
· <priority>: “此 URL 相对于您网站上其他 URL 的优先级”——该值越高(从 0.0 到 1.0),您希望爬虫将该页面视为越重要
Google 表示它忽略了 <priority> 和 <changefreq> 值,而 Bing 表示它“基本上忽略了”它们。因此,<lastmod> 标签是向搜索引擎表明以前发现的页面需要重新抓取的最有用的方式。
站点地图扩展
站点地图协议仅指定如何在站点地图中包含 URL。但是,该协议最强大的功能之一是您可以使用它来包含其他类型的内容(“XML”中的“X”代表“可扩展”)。
对于以下内容类型,有 Google 支持的扩展:
图像
新闻
视频
您可以为这些内容类型创建单独的站点地图,也可以将它们包含在现有站点地图中。
这些扩展引入了许多新的强制性和可选元素。例如,视频内容需要 <video:thumbnail_loc> 标记,该标记指向视频缩略图的位置。
静态和动态站点地图
每次从服务器请求动态站点地图时都会生成动态站点地图,因此它们将始终是最新的。换句话说,如果你在你的网站上创建一个新页面,然后在浏览器选项卡中加载你的动态 XML 站点地图,它应该列出你的新页面。同样,如果你更改了现有页面,站点地图应该更新该页面的 <lastmod> 值。(如果您的站点地图应该是动态的,但没有更新,则可能存在缓存问题。
另一方面,静态站点地图不是动态生成的,也不会自动更新。顾名思义,它们只是静态文件。
在几乎所有情况下,动态站点地图都是更好的选择。毕竟,如果站点地图的主要作用之一是告诉搜索引擎新内容,那么您希望站点地图在发布后立即包含该内容。
XML 站点地图和站点地图索引的大小限制
sitemaps 协议指定了 XML 站点地图的大小限制,“以确保您的 Web 服务器不会陷入提供非常大文件的困境”(但也为了提高搜索引擎的流程效率)。
您的 XML 站点地图应:
· 不大于 50MB (52,428,800 字节)
· 最多包含 50000 个 URL
大小限制是指未压缩文件的大小,因此压缩文件不会帮助您满足此要求。相反,您应该遵循协议中给出的建议:
“如果您的网站包含超过 50,000 个 URL 或您的 Sitemap 大于 50MB,则必须创建多个 Sitemap 文件并使用 Sitemap 索引文件。即使您的站点很小,但计划扩展到 50,000 个网址或 50MB 以上的文件大小,您也应该使用 Sitemap 索引文件。
站点地图索引是一个列出多个 XML 站点地图的 XML 文件。您可能有一个用于文章的站点地图,一个用于您的页面,另一个用于您的类别——所有这些都列在您的索引中。
站点地图索引文件也有大小限制。与单个站点地图类似,它们应该:
· 不超过 50MB (52,428,800 字节)
· 包含多达 50,000 个站点地图
sitemaps 协议对内容也有限制。某些字符必须“转义”,例如,& 符号 (“&”) 写成“&”。
如果您使用 Web 平台或 CMS 生成站点地图,它可能会遵循协议,因此如果您手动创建站点地图(这种情况很少见),则只需担心这些限制。
如何生成 XML 站点地图
如何生成 XML 站点地图将取决于您用于网站的 CMS 或平台。让我们看看这如何用于 Wix 网站,以及如何使用流行的 SEO 工具 Screaming Frog 来做到这一点。
网站的站点地图
网站会自动附带站点地图。我说 “sitemaps” 是因为该平台为不同类型的页面提供了不同的站点地图。sitemap 索引位于 https://yoursite.com/sitemap.xml,但这可能会链接到活动、论坛帖子等的站点地图,具体取决于您的网站使用的功能。
例如,这家公司网站有一个专门针对其在其网站上销售的产品的站点地图:
此外,当您完成网站SEO 设置清单时,谷雨云系统会自动为您向 Google 提交您的 XML 站点地图。您需要一个 Premium 计划和您自己的域才能利用这一点。
将您的 XML 站点地图提交给 Google(和 Bing)
生成站点地图后,下一步是通知主要搜索引擎,以便他们可以使用它。有两种方法可以做到这一点。
第一种方法是在 robots.txt 文件中指定站点地图或站点地图索引的路径,就像曼联网站上的这个例子一样:
robots.txt 文件,其中包含指向 XML 站点地图的链接
这个小的改变将使 Google 和其他搜索引擎能够在下次抓取您的 robots.txt 文件时找到您的站点地图。这里的缺点是你得不到任何反馈:你不会知道这些搜索引擎最后一次阅读你的站点地图是什么时候,他们发现了多少页面,等等。
为此,您需要搜索引擎本身提供的特殊工具。这些工具让您既可以提交站点地图,又可以查看站点地图的阅读情况:
· 对于 Google,要使用的工具是 Google Search Console。我们的 Google Search Console 完整指南将引导您完成首先在 Search Console 中验证您的网站,然后提交站点地图(或站点地图索引)的过程。 如果您管理着多个网站,并希望以编程方式向 Google 提交站点地图,请使用 Search Console API。
· Bing 有自己的 Search Console 等价物,称为 Bing Webmaster Tools,这里的提交过程也很简单。
您不必选择一种方法或另一种方法。在 robots.txt 文件中指定站点地图的路径并单独将站点地图提交给搜索引擎绝对是值得的。
验证 XML 站点地图
在提交 XML 站点地图后谈论验证它似乎很奇怪 ,但那是因为提交你的站点地图实际上是验证它的最佳方式。当您使用 Search Console(或使用 Bing Webmaster Tools 向 Bing 提交站点地图)向 Google提交站点地图时,该工具会告诉您您的站点地图是否有效。
在 Search Console 中,如果一切正常,您会收到一条绿色的“成功”消息:
Google Search Console 中已提交的站点地图页面,列出一个已提交的站点地图和绿色的“成功”状态
但是,如果您收到一条红色消息,则表示出了问题。只需单击错误即可了解更多信息:
Google Search Console 中的错误详细信息页面显示“您的 Sitemap 似乎是一个 HTML 页面。请改用受支持的站点地图格式”
修正所有错误后,请重新提交该错误,以提示 Google 再次提取该错误。
您还可以使用免费的第三方工具来验证您的 XML 站点地图,方法是粘贴链接或上传 XML 文件。
不过,即使您的 XML 有效,也可能还有其他原因导致 Google 无法获取您的站点地图:可能是您的 robots.txt 文件阻止了 Googlebot 访问它。与 Google Search Console 不同,第三方验证工具不会发现此类问题。
HTML vs. XML站点地图
我们已经看到 XML 站点地图是为搜索引擎设计的,但还有另一种针对人类用户的站点地图:HTML 站点地图。这是站点上主要页面或部分的目录,可以帮助用户快速了解站点的结构并进行导航。
您的 HTML 站点地图可能位于专用页面上,也可能位于页脚中——就像 Apple 的这个例子一样:
Apple.com 中的大页脚菜单包含数十个分类链接
站点标题中所谓的 “mega menus” 实际上是另一种 HTML 站点地图:
来自英国零售商 Currys 的 Mega-menu 列出电器的类别和子类别
HTML 站点地图也确实起到了 SEO 的作用:它们是内部链接的集合,Googlebot 会很乐意使用它们来发现新页面并了解这些页面的价值。因此,从这个意义上说,它们补充了 XML 站点地图的工作。
这并不意味着您应该只使用 HTML 站点地图。专门考虑搜索引擎发现,与 XML 站点地图相比,它们有一些主要缺点:
· HTML 站点地图受页面上空间的限制,因此通常不包括单篇文章、博客文章或产品页面(可能是您新内容的大部分)。
· HTML 站点地图不会告诉搜索引擎内容何时更新。
· HTML 站点地图通常需要手动更新,因此它们可能不是完全最新的。
出于这些原因,您应该专注于提供对搜索引擎有用的 XML 站点地图和对您的用户有用的 HTML 站点地图。如果 HTML 站点地图对您的用户没有用处,那就不要包含一个。
使用 XML 站点地图控制您的曝光度
现在,您对站点地图有了深入的了解。通过解决以下问题,将您的知识付诸实践:
我的网站有 XML 站点地图吗?
它是否列出(仅)我想要抓取的页面?
它是否包含了我想要的所有细节(例如,<lastmod>时间)?
它是否有效 XML 且在大小限制内?
我的站点地图会自动更新(或者我有办法更新它吗)?
我是否将其提交给 Google 和 Bing?
我是否在 robots.txt 文件中指定了站点地图的路径?
我的用户会从 HTML 站点地图中受益吗?
相关好文推荐
全球20大社交媒体平台及其营销价值全解析(2025年最新版)
2025年全球10 大搜索引擎及搜索引擎市场份额、排名分析
网站分析的指标有哪些
从GA谷歌分析数据了解网站流量情况
什么是 Google 算法?
如何利用谷歌分析优化网站?
常见问题解答
网站安全
如何确保用户数据的安全性?
我们会采取加密存储、访问权限控制和定期备份等措施,确保用户数据在传输和存储过程中的安全性。
你们是否支持内容安全策略(CSP)?
支持,内容安全策略(CSP)可以有效防止XSS攻击和数据注入,提升网站的整体安全性。
用户体验优化
如何提升移动端用户的访问体验?
我们会优化网站的响应式设计、减少加载时间,并为移动用户提供简化的界面和操作流程。
SEO策略
如何提升网站在语音搜索中的表现?
我们会通过优化长尾关键词和结构化数据,提升网站在语音搜索中的匹配度,增加被用户找到的机会。
多语言网站
你们支持哪些语言的网站开发?
我们支持英语、阿拉伯语、西班牙语、法文、德文、日文、韩文等多种语言的开发,超过104个语言,可覆盖全球主要市场。
多语言网站上线后如何维护?
我们提供多语言网站的持续维护服务,包含内容更新、SEO优化、技术支持等,确保每个版本的网站都能正常运行。
网站性能优化
你们是否提供网站性能监控服务?
是的,我们会定期监控网站的性能,及时发现并解决任何影响性能的问题。
SEO站内优化
SEO优化的效果多久可以体现?
SEO优化的效果通常需要3-6个月才能在搜索引擎排名和流量上有明显提升。
不要错过我们任何一篇文章
如果我们的文章对您有帮助,或者您对我们的产品感兴趣,请留下您的联系方式,以获得我们产品的最佳体验和得到专业人士的建议。
© 2017-2025 Gooeyun.com 广州谷雨网络技术有限公司 版权所有 | 粤ICP备2023119281号
Scan QR Code