Discovered – currently not indexed 怎么解决?

在哪里可以找到已发现 – 当前未编入索引状态

已发现 — 目前未编入索引是Google Search Console中的索引覆盖率(页面索引)报告中的问题类型之一。该报告显示您网站上页面的抓取和索引状态。

Google 的文档将 Google 的 Index Coverage(页面索引)报告中的 Discovered(当前未编入索引)状态定义为:

 

该页面已被 Google 找到,但尚未被抓取。通常,Google 想要抓取 URL,但这会导致网站超载;因此谷歌重新安排了抓取时间。这就是报告中最后一次抓取日期为空的原因。
资料来源: 谷歌的索引覆盖率报告

 

已发现 — 当前未编入索引出现在未编入索引类别中,其中包括 Google 尚未编入索引的 URL。

2-how-to-fix-discovered-currently-not-indexed

使用 Google Search Console 时,您可以单击问题类型以查看受影响的 URL 列表。

在将 URL 编入索引之前需要做什么

在继续讨论 Discovered 的特征(目前尚未编入索引并解决此问题)之前,让我们澄清一下 URL 被抓取然后在 Google 上编入索引需要什么:

  • Google 需要先找到一个 URL ,然后才能对其进行抓取。URL 最常通过内部或外部链接或XML 站点地图发现,其中应包含所有应编入索引的页面。
  • 通过抓取页面,谷歌访问它们并检查它们的内容。谷歌没有资源来抓取它找到的所有页面——这一事实是许多抓取问题的根源。
  • 索引期间,Google 会提取页面内容并评估其质量。获得索引对于出现在搜索结果中并从 Google 获得自然流量是必要的。索引页面根据众多排名因素进行评估,确定它们如何响应用户在 Google 中输入的搜索查询进行排名。 

由于其资源的有限容量、不断增长的网络以及 Google 希望页面达到一定的质量阈值, 让 Google 编入索引具有挑战性。

许多与技术和内容相关的因素可能会导致您的页面无法被抓取或编入索引。

有一些解决方案可以增加被索引的机会。这些包括:

  • 具有优先抓取网站有价值部分的抓取策略,
  • 实现内部链接,
  • 创建包含所有应可索引的 URL 的准确站点地图,以及
  • 编写高质量、有价值的内容。

请务必仔细阅读 Google 的文档 – 有一节有关指南可让 Google 更轻松地抓取您的网页并将其编入索引。

如何使用已发现 – 当前未编入索引的报告 

在本节中找到 URL 后,首先检查它们是否应该被抓取。  部分页面被举报属于正常现象 

如果应该,请尝试在报告中出现的 URL 中找到一种模式。这将帮助您确定这些 URL 的哪些方面可能导致问题。 

例如,该问题可能涉及特定产品类别中的 URL、带有参数的页面或具有特定结构的页面,导致它们都被视为瘦内容。 

当发现 – 当前未编入索引部分需要操作时

已发现的 URL(当前未编入索引)并不总是要求您更改您的网站。 

您可能会发现您打算将一些报告的 URL 保留在索引之外 – 这很好。但是您应该监控您有价值的页面——如果其中任何一个没有被索引,请检查 Google 发现了哪些问题。

也就是说,如果出现以下情况,您无需执行任何操作: 

  • 受影响的 URL 数量很少,并且随着时间的推移保持稳定,或者 
  • 该报告包含不应被抓取或编入索引的网址,例如带有规范或“noindex”标签的网址,或者那些在您的robots.txt 文件中被阻止抓取的网址。

但是,控制本报告的部分仍然至关重要。 

如果 URL 的数量增加,或者它们包含您希望排名并为您带来大量自然流量的有价值的 URL,则需要您注意这些 URL。

Discovered 的影响——目前未在小型和大型网站上编入索引

已发现 — 当前未编入索引的部分的影响可能会因网站的大小而异。 

如果您有一个较小的网站(通常不超过 10k 个 URL),并且您的页面具有良好的质量、独特的内容,则“已发现”-当前未编入索引的状态通常会自行解决。Google 可能没有遇到任何问题,只是尚未抓取列出的 URL。 

小型网站通常不会处理抓取预算问题,并且由于内容质量问题或内部链接结构不佳,可能会出现报告页面的激增。

对于大型网站(超过 1 万个 URL)而言,已发现 – 当前未编入索引状态可能特别严重,并且适用于数千甚至数百万个 URL。 

在 Onely,我们发现包含超过 10 万个 URL 的网站通常会遇到抓取问题,这通常源于浪费的抓取预算。 

这些问题通常会发生在电子商务网站上。它们通常具有重复或稀薄的内容,或者包含缺货或过期的产品。此类页面通常缺乏进入 Google 索引队列所需的质量,更不用说被抓取了。

启动大型网站时

如果您只是启动一个大型网站,您可以从一开始就让 Googlebot 的工作变得更轻松。 

如果你想启动一个大型站点,如果它包含许多空的或未完成的页面,那么你不应该立即启动它的整个结构,这些页面只会在以后更新。Googlebot 会遇到这些页面并认为它们质量低下,这会带来从一开始就具有低抓取预算的风险。这种情况甚至可能需要数年时间才能解决。

定期发布内容时添加内容要好得多。这样一来,Googlebot 从一开始就对您的质量产生了积极的印象。

在启动之前,您应该始终制定索引和抓取策略,并知道 Google 应该访问哪些页面。

发现的原因 – 当前未编入索引状态以及如何修复它们

与大多数索引问题一样,Discovered (目前未索引)的原因通常很复杂且相互交织。解决此问题的最佳长期解决方案是彻底的技术 SEO 审核。

通常,URL 将被归类为已发现——由于内容质量、内部链接或爬网预算问题,目前未编入索引。 此状态也可能出现在最近发布的网站上的页面上。

让我们考虑一下为什么您的网页可能会出现这种状态以及如何修复它。

内容质量问题

谷歌有它希望页面达到的质量阈值,因为它无法抓取和索引网络上的所有内容。 

Google 可能会将您域中的某些页面视为不值得抓取并跳过它们,优先考虑其他更有价值的内容。因此,这些 URL 可以被标记为已发现——目前未编入索引。

值得注意的是,正如 John Mueller 所说,将 URL 设为Discovered(当前未编入索引)通常不仅限于标记的页面,而是可能是整个站点的内容质量问题。如果 Google 认为您的网站与网络上的其他内容相比质量较差,它可能会跳过对您的网页的抓取和索引。

要开始解决此问题,请查看受影响的 URL 列表并确保每个页面都包含唯一的内容。内容应满足用户的搜索意图并解决特定问题。 

我建议您仔细阅读 Google 在评估网站时遵循的质量评估指南——它将帮助您了解 Google 在网络上的内容中寻找什么。

同时,不要忘记您不应该将所有页面都编入索引。

一些低质量的页面不应该被索引,例如: 

  • 过时的内容(如旧新闻文章), 
  • 由网站内的搜索框生成的页面,
  • 通过应用过滤器生成的页面,
  • 重复内容,
  • 自动生成的内容,
  • 用户生成内容。

最好阻止此类部分在您的robots.txt 文件中被抓取和编入索引。

2021 年 12 月 31 日的 SEO 办公时间内, John Mueller 讨论了对网站质量进行更改作为解决已发现问题的一种方式——目前未编入索引:

 

[…]在网站上进行更大的质量更改需要相当长的时间才能让 Google 系统适应。[…] 这更像是几个月而不是几天的事情。[…] 因为需要一段时间才能获得质量更改,所以我的建议是不要进行小的更改并等待看看它是否足够好,而是要真正确保,如果您要进行重大的质量更改, […] 质量真的很好改变 […]。您不想等待几个月然后决定,’哦,是的,我实际上也需要更改一些其他页面。
资料来源: 约翰·穆勒

内部链接问题

Googlebot 会跟踪您网站上的内部链接以发现其他页面并了解它们之间的联系。因此,请确保您最重要的页面经常在内部链接。 这有助于传播PageRank,这是给定页面对 Google 的重要性的信号。

Martin Splitt 在Rendering SEO 网络研讨会中谈到了为什么不正确的链接结构可能会出现问题

 

[…] 如果我们有大约一千个来自您的 URL,这些都只在站点地图中,并且我们没有在我们抓取的任何其他页面中看到它们,我们可能会说,“我们不知道它们有多重要这真的是'[…]。不要只将它放在站点地图中,而是从您网站上的其他位置链接到它,这样当我们抓取这些页面时,我们会看到“啊哈!所以这个页面,这个页面,这个页面都指向这个产品页面,所以也许它比这个只存在于站点地图中的其他产品更重要[…]。
资料来源: 马丁斯普利特

正确的内部链接围绕连接您的页面以创建一个逻辑结构,帮助搜索引擎和用户遵循您网站的层次结构。内部链接还与您的站点架构的布局方式相关联。

帮助搜索引擎找到并为您的页面分配适当的重要性包括:

  • 确定你的基础内容是什么,并确保它与其他页面链接,
  • 在您的内容中添加上下文链接,
  • 基于其层次结构链接页面,例如,通过将父页面链接到子页面,反之亦然,或在网站导航中包含链接,
  • 避免以垃圾邮件的方式放置链接和过度优化锚文本,
  • 包含指向相关产品或帖子的链接。

您还可以阅读这篇关于改进内部链接的文章。

抓取预算

已发现– 当前未编入索引状态适用于尚未被抓取的 URL,这通常是由于抓取预算不足或浪费造成的,尤其是在我们处理大型网站时。

抓取预算是 Googlebot 可以并且想要在网站上抓取的页面数量。 

网站的抓取预算由以下因素决定:

  • 抓取速率限制 – Google 可以抓取多少个网址,根据您网站的功能进行调整,
  • 抓取需求——谷歌想要抓取多少个网址,基于它对网址的重视程度,通过查看它们的受欢迎程度和更新频率。

浪费抓取预算会导致搜索引擎对您网站的抓取效率低下。因此,您网站的一些基本部分可能会被跳过。 

许多因素可能会导致抓取预算问题 – 它们包括:

  • 低质量的内容, 
  • 内部链接结构差,
  • 实施重定向的错误,
  • 服务器超载,
  • 重磅网站。

在优化您的抓取预算的使用方式之前,您应该了解 Googlebot 是如何抓取您的网站的。

您可以通过导航到 Search Console 中另一个有用的工具——抓取统计报告来做到这一点。此外,请检查您的服务器日志,以获取有关 Googlebot 已抓取和跳过的资源的详细信息。 

以下是您应该考虑的 5 个方面,以优化您的抓取预算并让 Google 抓取您网站上的一些已发现(当前未编入索引)页面:

Googlebot 会抓取低质量的内容吗?

如果 Googlebot 可以自由抓取低质量页面,它可能没有资源来获取您网站上有价值的内容。

要阻止搜索引擎爬虫爬取某些页面,请在 robots.txt 文件中应用正确的指令。 

您还应该确保您的网站具有正确优化的站点地图,以帮助 Googlebot 在您的网站上发现独特的、可索引的页面并注意它们的变化。 

站点地图应包含: 

  • 以 200 个状态码响应的 URL, 
  • 没有元机器人标记的 URL 会阻止它们被编入索引,以及 
  • 只有您的页面的规范版本。

您的重要页面是否在内部链接?

如果 Google 没有找到足够的指向 URL 的链接,它可能会因为没有足够的信号表明它的重要性而跳过抓取它。 

遵循我在“内部链接问题”子章节中概述的指导方针。 

您的重定向是否正确实施?

实施重定向可能对您的网站有益——但前提是做得正确。每当 Googlebot 遇到重定向的 URL 时,它都必须发送额外的请求才能到达目标 URL,这需要更多资源。

确保您坚持实施重定向的最佳实践。您可以将用户和机器人从已从外部来源链接到工作页面的 404 错误页面重定向,这将帮助您保留排名信号。 

但是,请确保您没有链接到重定向页面– 相反,更新它们以使其指向正确的页面。您还需要避免重定向循环和链接。

您的服务器可以处理 Googlebot 的抓取吗?

由于您的网站似乎超载,Google 可能会遇到抓取问题。发生这种情况是因为影响爬网预算的爬网速率已根据您的服务器功能进行了调整。

在 Rendering SEO 的网络研讨会上,Martin Splitt 讨论了有关 Google 抓取页面的服务器问题:

 

[…] 我经常看到的一件事是服务器给出间歇性错误 – 特别是 500 左右 –以及您的服务器以 500、501、502、504 等响应的任何内容,意味着您的服务器说“等等,我这里有一个问题'[…],它可能随时会崩溃,所以我们正在后退。每当我们退后,并且您的服务器做出积极响应时,我们通常会再次缓慢上升。想象一下每天有 500 多条的响应。 我们看到了这一点,我们正在后退一点,我们正在加速恢复——我们再次看到它[…]。您应该查看您的服务器是否做出负面响应。

资料来源: 马丁斯普利特

如果您的站点上存在任何服务器问题,请咨询您的托管服务提供商。 

服务器问题也可能是由网络性能不佳引起的——阅读我们关于网络性能和抓取预算的文章了解更多信息。

您的网站是否资源过多?

某些页面太重可能会导致抓取问题。Google 可能只是没有足够的资源来抓取和呈现它们。 

Googlebot 需要获取以呈现您的页面的每个资源都计入您的抓取预算。在这种情况下,Google 会看到一个页面,但会将其推入优先级队列中。 

您应该优化网站的 JavaScript 和 CSS 文件,以减少代码的负面影响。 

拥有一个新网站

Tomek Rudzki 创建了一个 Twitter 民意调查,他向 SEO 社区询问新网站上的索引问题。而且,根据民意调查结果,几乎 40% 的人都遇到过这样的问题:

 

在其中一个 SEO Office Hours 会议期间,一位参与者提出了他在 2 个月前推出的新网站,其中许多页面被标记为已发现 – 目前未编入索引。然后他问页面应该以这种状态显示多长时间,约翰回答说:

 

那可能是永远的[…]。尤其是对于一个较新的网站,如果您有很多内容,那么我会假设在一段时间内会发现很多新内容并且不会被索引。然后随着时间的推移,通常情况会发生变化。就像,好吧,当我们看到更多地关注网站本身确实有价值时,它实际上已经被抓取或被索引。
资料来源: 约翰·穆勒

通常,没有快速修复让页面被抓取和索引的方法,但是查看我之前描述的 SEO 方面可能会帮助您更好地让它们被索引。

很明显,谷歌只想索引高质量的内容,而且随着网络的发展,谷歌的质量门槛似乎也在提高。但这对于需要一次又一次地向谷歌证明他们的内容值得被收录在索引中的新网站来说尤其具有挑战性。

因此,如果您有一个新网站并且 Google 报告您的 URL 已被发现——目前尚未编入索引,请仔细监控它们。如果您的内容符合质量标准并且您的网站在技术上得到了优化,那么这些 URL 的数量应该会随着它们被抓取和编入索引而逐渐减少。

有关寻址发现的附加信息 – 目前未编入索引

在 SEO 办公时间,John Mueller 被问及如何解决网站上大约 99% 的 URL 卡在“已发现”——目前未编入索引的报告部分的问题。 

John 的建议围绕三个主要步骤展开:

 

[…] 首先,我可能会看 […] 您不会意外生成具有不同 URL 模式的 URL,[…] 诸如 URL 中的参数之类的东西,大写小写,所有这些都可能导致实质上是重复的内容。如果我们发现了很多这样的重复 URL,我们可能会认为我们实际上不需要抓取所有这些重复的 URL,因为我们已经有一些该页面的变体 […]。确保通过内部链接,一切正常。我们可以爬取您网站上的所有这些页面并完成它。您可以使用爬虫工具Screaming FrogDeep Crawl之类的工具进行粗略测试. […] 他们基本上会告诉您他们是否能够爬入您的网站,并向您显示在该爬取过程中找到的 URL。如果这种爬行有效,那么我会非常关注这些页面的质量。如果你说的是 2000 万个页面,其中 99% 没有被索引,那么我们只是索引了你网站的一小部分。[…] 说‘好吧,如果我减少页数会怎样?减半或什至 […] 到当前计数的 10%”。[…] 通过在这些页面上提供更全面的内容,您通常可以使那里的内容质量更好一点。对于我们的系统,查看这些页面并说,’嗯,这些页面 […] 实际上看起来不错。我们应该去爬行和索引更多’。
资料来源: 约翰·穆勒

在 2022 年 2 月 18 日的另一次办公时间会议中,John 再次被问及大量 URL 似乎卡在“已发现 – 目前未编入索引”。 

约翰确实说过,很多时候有很多页面处于这种状态是很正常的:

 

[…]在某种程度上,我只能接受 Google 无法抓取和索引所有内容。[…] 例如,如果您发现 […] 单个产品没有被抓取和编入索引,请确保至少这些产品的类别页面被抓取和编入索引。因为这样,人们仍然可以在您的网站上找到这些个别产品的一些内容 […]。
资料来源: 约翰·穆勒

SEO 社区的成员报告称,标记为“已发现”的页面数量有所增加——目前已数月未编入索引。有些人正在测试解决此问题的替代解决方案。

Dan Shure 决定通过将卡住的内容移动到不同的 URL 来测试它,这导致它们实际上被编入索引。

因此,这些页面中的许多似乎有可能在最初保持此状态后就卡住了。

已发现 – 当前未编入索引与已抓取 – 当前未编入索引

这两种状态通常会混淆,尽管它们是相互关联的,但它们的含义不同。 

在这两种情况下,URL 都没有被编入索引,但是,对于 Crawled – 目前还没有被编入索引,Google 已经访问了该页面。使用已发现 – 当前未编入索引,该页面已被 Google 找到但尚未被抓取。

已爬网——当前索引通常是由索引延迟、内容质量问题、网站架构问题或页面可能已被取消索引引起的。

我们还有一篇详细的文章解释了如何修复 Crawled – 目前未编入索引。

包起来

已发现——目前未编入索引往往是由网站质量和爬网预算问题引起的。 

解决这些问题 – 并帮助 Google 在未来有效和准确地抓取您的网页 – 可能需要您检查网页的许多方面并对其进行优化。

以下是一些有助于避免 Discovered 问题的主要事项 – 目前未编入索引的页面:

  • 使用 robots.txt 可防止 Googlebot 抓取低质量网页,重点关注重复内容,例如由过滤器或您网站上的搜索框生成的网页。
  • 花点时间创建一个合适的站点地图,供 Google 用来发现您的页面。
  • 保持您的网站架构完整,并确保您的关键页面在内部链接。
  • 制定索引策略来确定对您最有价值的页面的优先级。
  • 考虑到抓取预算进行优化。

如果您的 Discovered(当前未编入索引)的数量没有下降,请联系 Onely 进行深入的技术 SEO 审核。