www.2566.com

www.2566.com

028-85954568

搜索引擎蜘蛛先容。

电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地实行某项任务的App程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
    搜索引擎蜘蛛分类。
    搜素引擎抓取网站页面主要靠的是蜘蛛程序也就是大家常说的爬虫。不同的爬虫分工意义不一样,常见的爬虫有通用爬虫和聚焦爬虫,两者紧密联系却又有所区别。
 
  通用爬虫:从一个或若干初始网页url路径开始,在获取初始页面url路径的同时不断抓取页面上的url路径地址,并将抓取页面的url路径地址放入队列。
 
  聚焦爬虫:自动下载页面程序,根据特定的目标,有选择性的访问互联网页面的目标链接,获取页面信息。聚焦爬虫特定:不追求大而广的覆盖,需要根据网页分析算法过滤与主题无关链接,并将链接放入url队列中等待抓取,并根据搜索引擎索引策略从队列中选择下一步抓取的页面,聚焦蜘蛛的意思在于抓取目标主题内容相关的网页,为用户提供目标主题所需要的数据资源。
优优科技版权所有,未经允许不得转载
XML 地图 | Sitemap 地图