插件网/网站优化/搜索引擎蜘蛛爬取的第一个网站文件是什么?

搜索引擎蜘蛛爬取的第一个网站文件是什么?

发布时间:2019-10-02    所属栏目:网站优化    阅读数:

像百度,搜狗,360搜索,谷歌等都是网页搜索引擎,他们的作用就是每天不断地爬取互联网上的网页,然后经过一系列复杂的算法进行排序,优先将能够解决相关问题的网页呈现在搜索结果页上。
那么搜索引擎蜘蛛爬取您的网站的第一个文件是那个呢?很多朋友可能会脱口而出,首页。其实不然,搜索引擎爬取网站网页也是需要遵守相关的协议的,那就是robots.txt也叫robots协议。这个协议的作用就是告诉搜索引擎爬虫那些网页是可以被抓取的,那些是不被允许的。举个例子,大家在百度上搜索商品是不是没有天猫商城中商品的网页?其实这就是天猫商城网站的robots.txt对搜索引擎蜘蛛的爬取做了限制。

robots.txt限制搜索引擎蜘蛛抓取案例
而京东商城商品则是可以在百度上搜索到的,这是因为京东商城的robots.txt文件开放了搜索引擎蜘蛛的爬取权限。
这个协议的好处就在于你可以决定你网站中的网页是否可以被像百度,谷歌等搜索引擎抓取。【注意】由于一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。并将robots.txt放置于网站的根目录下。

相关文章

分享两种常用的SEO网站图片优化方法

小邱分享让你的网站被搜索引擎快速收录的方法

外链有哪几种类型?我们去哪里发外链?

搜索引擎蜘蛛爬取的第一个网站文件是什么?