在了解搜素引擎蜘蛛的之(zhī)前,我们先回顾下(xià)之前介绍过什么是互联网,通俗可以理解成互联(lián)网就像一张非常大的蜘蛛网,然(rán)而搜索引擎是如(rú)何发现并收录互联网(wǎng)中过亿的网页(yè)呢?这就是(shì)我们今天(tiān)所(suǒ)要介绍的,搜索引擎蜘(zhī)蛛(zhū)或(huò)机(jī)器人(网络爬虫),当大家看一些SEO文章(zhāng)或教程的时候(hòu)就会经常发现我们做SEO的(de)讲解引蜘蛛等方法(fǎ),那么就是指它了。
我们来看看(kàn)搜索引擎蜘蛛字(zì)面含义:
搜索(suǒ)引擎蜘蛛(zhū)是一个自动提取网页的(de)程序,它为(wéi)搜索引擎从Internet网上下载网页(yè),是搜索引擎的重(chóng)要组成。传统爬虫从一个或(huò)若干初始网页的(de)URL开始,获(huò)得初(chū)始网页上的URL,在抓取网页的过程中,不断(duàn)从当前页面(miàn)上抽取新的URL放入队列(liè),直到满足系(xì)统的一定停止条(tiáo)件。被搜索引擎(qíng)蜘蛛(zhū)抓取的网页(yè)将会(huì)被系统存贮,进(jìn)行一定的分析、过滤,并(bìng)建立(lì)索引,以便(biàn)之后(hòu)的查询和检索;
国内常见搜索引(yǐn)擎蜘蛛名称:
google蜘蛛:googlebot
百(bǎi)度蜘蛛:baiduspider
yahoo蜘蛛:slurp
soso蜘蛛:sosospider
msn蜘(zhī)蛛:msnbot
有道蜘蛛(zhū):YodaoBot和OutfoxBot
搜狗(gǒu)蜘蛛:sougouspider