新闻动态 

News Center

新闻动态 

News Center

网页是怎么收录的,网站收录原理

发表时间:2019-05-16 17:42:43

关注:396

蜘蛛通过跟踪网页链接进行爬网。它读取网站根目录中的robots.txt文件(搜索引擎协议)。如果协议中未阻止搜索引擎爬取,则蜘蛛将开始定位网页。链接和跟踪逐个爬行。当蜘蛛程序抓取内容时,它不执行任何处理。它存储在一个临时数据库中,这意味着完成后的内容很混乱,但蜘蛛程序将被合理分类,方便下一步过滤。 

1.抓取 

蜘蛛通过跟踪网页链接进行爬网。它读取网站根目录中的robots.txt文件(搜索引擎协议)。如果协议中未阻止搜索引擎爬取,则蜘蛛将开始定位网页。链接和跟踪逐个爬行。当蜘蛛程序抓取内容时,它不执行任何处理。它存储在一个临时数据库中,这意味着完成后的内容很混乱,但蜘蛛程序将被合理分类,方便下一步过滤。 

我们的网站层级一般不应超过4级,否则不利于蜘蛛爬行,影响网站包含。

2.过滤  

搜索引擎将根据捕获内容的内容程度进行过滤,并删除劣质无用的。

以下是集中搜索引擎过滤搜索页面过程中处理方法的简要介绍。

(1)去重处理(建站时最好的采用原创),抓取内容和自己数据库的内容,如果重复很多,不利于网站。

(2)停止词处理(如:的、得、地或一些具有相似含义的词,这要求如果我们处理伪原创,文章的修改力度要加大)。

(3)提取页面的关键词并进行中文切词。 

3.收录 

然后搜索引擎将高质量的内容存储在自己的索引库中的某种算法的索引中,便于后续用户的索引调用。  

4.排名显示  

当用户搜索关键字时,搜索引擎根据特定算法在用户面前的数据库中显示内容排名。(除了我们的网页标题,有时搜索引擎可能不会显示我们的描述描述部分,或者它可能会调用具有更高匹配的网页的一部分。例如,有时我们搜索一个句子,也可以显示出来)


图片展示
公众号

 

网站建设    |    小程序开发    |    H5建站    |    网站SEO   

网络推广    |    网络营销       |    企业邮箱   |    400电话

    电话:13825037771

    邮箱:ihy0001@163.com

    地址:赣州市章贡区豪德水岸新天

图片展示

Copyright @ VillaGrandis All Rights Reserved  赣ICP备19001657号-1

客服中心
热线电话
19907979380
上班时间
周一到周日
二维码