教你三分钟看懂百度spider3.0时代
发表日期:2016-07-07 14:58:00
浏览次数:0
今天大家要说的是有关于spider升级为3.0的事,在此之前,我还是要给一些新手站长普及一下什么叫spider。百度spider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。
spider的升级并不是很常见的,上一次的2.0版本还是在2010年升级的。到目前为止,已经过了6年时间,于2016年6月18日,更新为了3.0版本。此次升级的特点就是两点:速度提升,原创维护。
对比之前的2.0版本,3.0版本的特点有:1.抓取系统提升为实时抓取,增量计算全实时调度
2.数据读写达亿万规格
3.网页的收录范围达到90%
4.速度提升了80%
这次的3.0版本的新特性有哪几个方面呢:
一、链接发现方面
如今sipder每天发现的新链接在500亿左右的量级,而在百度站长平台提交链接是其中高效的,特此,工程师提醒站长不要过度提交链接,尤其是低质链接,这样才能达到更好更及时的收录效果。
二、链接抓取方面
策略上,开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序,对有价值链接的召回率提高95%!
架构上,计算性能的强劲提升,对每天新增的数百亿模块的链接,完成实时计算,延时不到1秒;开发了更强大的存储系统,面对万亿规模的数据做到实时读写。
三、时效性页面方面
在对时效性页面收录方面,在之前的2.0搜索时代,很多中小站长写出的高质量文章,一旦被高权重的站点转载, 那么几乎自己的原创文章还不如大站转载后来的流量多,而在3.0时代,这样的情况将大有好转,配合使用百度的主动提交等链接提交方式,文章发布后第一时间 提交给百度,那么一旦被收录,哪怕其他的大站转载了你的文章,你的文章在搜索结果中仍然排名更好。这样,更多的高质量内容展示给搜索用户,就是一个更加健康的互联网生态。
关于时效性方面,大家现在其实可以自己搜索某个关键词,在搜索结果中可以发现,收录时间越近的排名会越靠前,当然主要集中在资讯类的文章,这就是时效性,这就对站点的更新频率提出了更高的要求,当然排名不可能简单的跟发布时间有关,还有很多维度,但是针对资讯类的文章,随时跟进资讯的进度很重要。
在这大家不得不再提一下百度站长平台链接提交中的主动推送功能,要想时效性页面更好的被百度收录,主动推送功能时效性内容提交的是唯一的入口!
四、死链方面
全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页。
其中无效低质网页(如被黑),通过百度站长平台提交,可加快检索屏蔽的过程。
五、建库方面
索引展现时效性提升,原来是10天左右,现在提升40%~80%不等!
2016百度Spider3.0时代,可以让抓取链接速度快上加快,索引展现提升到40%~80不等。
Copyright?2009-2022 Sipoweb.com All Rights Reserved 地址:中山市沙溪镇富港路富元四季星座1609-1638卡 电话:400-110-1881 18676444413