会员登录|免费注册|忘记密码|管理入口 返回主站||保存桌面|手机浏览|联系方式|购物车
企业会员第1年

威海韦恩信息科技有限公司  
加关注0

网站建设,微信公众平台开发,网站代运营,网站优化推广

搜索
新闻分类
  • 暂无分类
联系方式
  • 联系人:韦恩科技
  • 电话:0631-8350883
  • 邮件:1364441565@qq.com
  • 传真:0631-8350882
站内搜索
 
荣誉资质
  • 暂未上传
友情链接
首页 > 公司新闻 > 如何理解搜索引擎的抓取原理
公司新闻
如何理解搜索引擎的抓取原理
2016-01-15IP属地 火星59
   为什么我们所发布的文章有很多都不收录,自己一个字一字搞出来的内容,还是不收录那是为什么?搜索引擎抓取原理它经过哪几个过程?想必这是很多站长都有的疑问,一直摸不清蜘蛛抓取的脾气,这里威海网络公司韦恩科技还是要强调,做任何一件事之前一定要先了解它的规则,只有了解了规则,才能更好的运用规则。

  一、蜘蛛是什么

  我们把搜索引擎比喻无边无际的网络海洋,有海量的信息。“蜘蛛”就是计算机的的一套程序,专门来抓取检索互联网上的信息。“蜘蛛”也叫爬虫和机器人,就是一套信息抓取系统。互联网就像一张蜘蛛网,而在这张网上爬取信息的,就像“蜘蛛”一样在互联网上反复地爬来爬去,不知道累的,所以叫作网络蜘蛛。

  二、搜索过程

  当我们在搜索框中搜索一个关键词的时候,输出的结果搜索引擎是需要经过一些很复杂的过程才能展现给用户,一般都需要经过四个过程:抓取、过滤、建立索引和输出结果。当我们在搜索引擎看到的只是一结果,搜索根据各种算法,把某个关键词的展现在首页的第一位。

  三、收录过程

  收录过程就要经过上面所说的四个过程:抓取、过滤、建立索引和输出结果。

  1、抓取

  网站有没有被收录首先要看一下网站的蜘蛛访问日志,看一下蜘蛛有没有来,如果蜘蛛都没有抓取那是不可能被收录的。收录的前提是要搜索引擎要来抓取,这个可以从网站的IIS日志里面可以看得到,也就是服务器日志,如果没有来呢?那么就主动向搜索引擎提交,搜索引擎会派出蜘蛛来抓取网站,这才有可能被收录。

  2、过滤

  网站被抓取了并不代表一定会被收录,搜索引擎会先去判断这个页面的价值。蜘蛛来抓取了会把数据带回去,放到临时的数据库中,再进行过滤。过滤掉一些垃圾的内容或者是低质量的内容。看你的信息是不是采集,在互联网上有大量的相同信息,它不会把你的信息建立索引。那有的人会问了,有的时候我们自己写的文章也不会被收录,那都是我们一个字一个字搞出来的,那难道不是一篇很好的原创吗?的确是一篇不错原创内容,为什么有时不会被收录呢?那就低质量的内容,低质量的内容看的不是你文章写得有多么的精彩,那要看你文章是不是用户所关注的,是不是用户所需求的。

  3、建立索引与输出结果

  通过一系列的要求,符合收录的内容之后建立索引,建立索引之后这个时候就是被收录了的。当用户在搜索关键词就会输出结果,输出的结果排在第一的,是有搜索引擎内的各算法比如一些外链的投票,匹配是否相关等等的一系统的算法,把你的页面排在前面。在这里收录还有一种情况,收录只经过抓取再到输出结果,中间的两个过程是没有经过的,就是说抓取到马上就收录的。这是在什么情况下呢?那就是具有很强的时效性的内容,比如新闻类的,它就具有很强的时效性,比效今天发生了一件特大事件给大部分的用户所关注,所以所发布信息给抓取到了,搜索引擎会第一时间展现给用户。这样信息一过用户就不会再去关注了,以后就没有太大的价值,在里就有一个问题,用户所关注度过了之后,搜索引擎会重新检索这一类内容,如果是垃圾内容,低质量内容还是会给搜索引擎过滤掉的。

  四、蜘蛛抓取的两种策略

  1、广度优先

  广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这一种抓取方法速度是很快的,这是最常见的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

  2、深度优先

  深度优先是指网络蜘蛛会从起始页面开始,一个链接一个链跟踪下去,处理完这条路线之后再转入一下个起始页,继续跟踪链接。这一种方法抓取速度会比较慢一些,有可能抓着抓着就找不到回到起始页的方向。这两种方法只是蜘蛛抓取的策略,只作一个了解就可以了。

总结:威海网络公司韦恩科技认为简单地了解了一下“蜘蛛”是什么,搜索得出来的结果,搜索引是经过了四个过程以及收录的四个过程:抓取、过滤、建立索引和输出结果。还就是蜘蛛抓取的两种策略只作一个了解就可以了。

原文地址:http://www.wnxxkj.com/html/2016/xinwendongtai_0114/225.html,转载请注明出处。