什么是网络爬虫?

  • 从前面的搜索引擎的排名原理可以知道,我们网页能够被搜索引擎抓取和进行排名,因为它会派出网络爬虫去工作,所以seo中所指的爬虫叫蜘蛛或者机器人!其实就是搜索引擎弄的一段专门用来收集网络上的内容的程序!
      而不同的搜索引擎对网络爬虫的名称也有不一样。
      百度的爬虫叫百度蜘蛛(baiduspider)
      360爬虫叫360蜘蛛(360spider)
      谷歌爬虫叫谷歌机器人(Googlebot)

  • 工作原理简述:爬虫从网络上某个网页开始顺着其中一个锚文本或者链接进去到另外一个网页进行信息的抓取,把索取到的信息放到他的临时索引区,以待进一步的帅远的一个不断循环的过程!
       那我们怎么样才能知道爬虫是否在我们网站爬行过呢?
    其实很简单,因为我们空间当中会有一个文件叫logs就是专门用来记录爬虫访问网站的轨迹的日志!举例:

    —200代表网站能正常打开
    —代表页面字节

这些在后面的光年日志分析工具的使用和查看中会详细地讲解到

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注