一、抓取:百 度抓取网页的工具叫做蜘蛛Spider,这个比喻十分形象,百度蜘蛛或者叫做百度爬虫,在互联网上这张大网上爬行,顺着网页中的超链接,从这个网站爬到另 一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜 集到绝大多数的网页。然后过滤掉低质量、重复甚至是同质化内容,即石榴算法。 过滤:2013年5月,百度推出“石榴算法”,过滤掉采集,同质化以及低质量页面。稀缺度越高越容易被抓取。 二、收录:搜 索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中 文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。然后通过比对去重步骤,(将重复或者没有更新的网页从数据库删除,然后通过先进先出的规 则),分词(通过将页面拆分成一个一个词语,去掉形容词、动词、助词等无用内容,然后将剩下的词从互联网中找出出现频率,将中频词与数据库中其他类似页面 词语进行比对,从而保留新页面或者更新后的旧页面。 三、排序:排 序就是关键词排名。这也是SEO从业者以及企业老板们最为看重的因素,也是SEO从业者的终极目标。(对于老板而言,转化率中的订单量才是对电商 部门的终极要求)。百度根据每个页面的标题,判断内页相关度以后,通过大约一百四十项因素评分以后,会列出某一关键词的排序。 搜索引擎的数据库分为高质量、中质量与低质量三种。高质量索引库的页面也符合 二八原则,大约占整个互联网页面的20%,却能够满足80%的搜索引擎用户需求。中低质量索引库里的页面,在一般情况下,是不会参与关键词排名的,或者排 名在三十或者百名以后。但是,在某些冷门关键词,在高质量索引库中没有找到结果的,则会从中低索引库中提取关键词并展示出来。 影响百度收录的因素: 1.百度对于老域名网站,收录较快对于新域名网站,以及老域名却被K过的网站收录较慢。 2.主页比内页收录快,新网站刚上线情况下,一般主页会在半个月内实现收录,而内页最迟则会一个半月到两个月才被收录。就要检查未被收录的页面的质量,去丰富这些页面的内容。 3.当内容质量特别高,特别稀缺,理论上是可以实现秒收录的。 4.新闻资讯类网站,通常原创首发的稀缺类网页,尤其是热点新闻,通常都是接近于秒收。相应的,企业站产品页面由于不是热点,收录速度比热门资讯类更慢。 5.网站权重影响收录。权重是搜索引擎对于网站的评级,百度的权重对应的是谷歌的PR值,PR全称page rank,即网页等级的意思。网站权重通常是由0-10,11个评分等级构成,而网站权重又由主页权重和每个页面权重共同组成,某种意义上讲,网站权重可 以大致理解为网站所有页面权重的平均值。因此,网站整体权重高的内页,收录比权重低的网站要快的多。所以,企业类网站内页页面的收录通常会受类型不是热门 事件以及网站整体权重比资讯类页面低的双重因素作用下,收录要慢得多。 《战国策四》中记载着一个有名的故事,叫做南辕北辙。意思就是说,一个人在努力,准备再充分,选择错了方向就会南辕北辙,有付出却没有收获。每个SEO从业者,以及想要了解SEO的人们,只有先了解了搜索引擎的工作原理,才能保证所有的努力都作对了方向。