10年网站建设优化实战经验
18217721733

网站上线几个月都不收录的原因排查及处理方法

上海知九信息 SEO 网站优化 百度收录 搜索引擎 2020-08-05

网站中的网页被搜索引擎抓取收录直至参与排名之前大概经过了如下过程:

  • 网页URL被搜索引擎发现并提取到待抓取链接库;
  • 搜索引擎分配爬虫程序对待抓取链接库中的网页进行抓取;
  • 对抓取到的网页进行SEO规范识别,过滤部分劣质、作弊、不安全的网页;
  • 对筛选过的网页进行分词,索引库去重,建立倒排索引;

如果一个网站上线几个月都不收录,我们需要对照上述步骤来对原因进行排查和分析。下文以百度为代表进行说明。

一、网页URL能不能被发现并提取

1、向百度提交网站和url

网页URL被百度发现可以是主动提交的,也可以是存在于其他已收录网页(包括站内和站外)上的超链接。可以做以下一些工作:

  • 向百度提交网站:注册百度“搜索资源平台”账号并添加、验证网站;
  • 向百度提交资源,如下图,有三种提交方式:API提交、sitemap提交、手动提交;
  • 想办法建设一些有效的外部链接,必须为标准超链接形式,文本形式或JS跳转的不可以被提取链接。

百度搜索资源平台资源提交

2、未禁止搜索引擎抓取

确保robots.txt和网页meta标签没有禁止搜索引擎对网页的抓取,以下代码为禁止抓取的设置,避免出现。

Disallow: /Disallow: /test ,此为robots.txt文件限制搜索引擎抓取的命令,前者限制对全站的抓取,后者限制对test目录的抓取。

<meta name="robots" content="noindex" /> ,此为网页上限制对该网页抓取的命令。

二、网页能不能被成功抓取

查看百度“搜索资源平台”的“抓取频次”和“抓取异常”下的数据,看看是否分配了爬虫来抓取网页,有无网络错误或服务器错误造成抓取失败。

如“抓取异常”中有造成抓取失败的错误,需要及时处理解决。

由于搜索引擎爬虫资源有限、网站服务器负载能力有限,搜索引擎会给每个网站分配一定额度的抓取频次。

如果抓取频次为0,需要多做一些有效的外链,优质的高权重页面最佳。搜索引擎待抓取链接库中的URL是有排序的,被发现次数越多、超链所在页面权重越高的,会优先抓取。

如果抓取频次不为零,但目标页面不能被及时收录,需要分析网站日志,看看搜索引擎分配的抓取资源有没有浪费在无效的页面或非目标页面,再进一步对robots.txt或网页meta标签做无效路径、页面和非目标页面的禁止抓取设置,从而把爬虫抓取资源有效分配给重要的目标网页。

三、非劣质、作弊、不安全网页

搜索引擎有其收录算法标准,比如:《网站违规内容——出现这些百度不收录》《百度搜索优质内容指南》。常见的劣质判定标准有内容空短、文不对题、堆词作弊等。对照这些基本的规范或者底线,对不合规范的部分作出修改。

而不安全的网页,主要是网站被黑客攻破,植入了病毒和非法信息,需要对这些非法信息进行清除。还需要关注下友情链接指向的网站和同IP的其他网站是否有被黑的迹象,避免被连带处理。

四、分词去重

搜索引擎对网页建立倒排索引时,会把整个网页的文本内容切分成一个一个的短词,并加入词频、位置(见:http://www.web315.net/tuiguang/68.html)等信息,与索引库中的数据比对。如果是低成本批量采集复制的内容,重复度高、排版差,可能就被过滤了,从而不被收录索引。简单的调换段落或改写首尾段作用不大。

按照以上的方法来排查解决,一般能够解决网站不被收录的问题。如果还不能解决,干脆换一个域名重新做优化,新网站、小网站向百度反馈收录问题基本是石沉大海没有回应的。