网站一旦上线后,搜素引擎蜘蛛第一个爬取网站文件的就是robots.txt文件,所谓的robots.txt就是搜索引擎协议文件,因此要检查分析协议文件是否书写正确,因为书写正确的robots.txt协议文件至关重要,一般设置robots.txt协议文件主要有以下几个方面:
       (1)不希望被搜索引擎蜘蛛爬取到的文件都要屏蔽掉,主要屏蔽:网站后台JS、CSS文件和网站后台图片等。
       (2)不希望被搜索蜘蛛抓取到的网页链接也都要屏蔽掉,主要屏蔽:网站后台登录网址、网站动态路径等。
       (3)可以将XML格式的网站地图放进robots.txt末尾处,这么做的好处就是方便搜素引擎蜘蛛爬取网站的所有文章,提高网站文章的收录率。