重庆网搜科技致力于重庆营销网站建设推广,致富之路从这里开始
服务热线:023-68916240 / 15696152758

当前位置:首页 > 网站干货 > 详细内容

网站优化时如何对网页去重

发表日期:2020-08-05 来源:

    内容重复可以归结为以下4种类型。
    一:如果两篇文档内容和布局格式上毫无差别,则这种重复可以叫做完全重复页面。
    二:如果两篇文档内容相同,但是布局格式不同,则叫做内容重复页面。
    三:如果两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重复页面。
    四:如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重复页面。
    所谓近似重复网页发现,就是通过技术手段快速全面发现这些重复信息的手段,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。
    发现完全相同或者近似重复网页对于搜索引擎有很多好处。
    1.首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索引擎的搜索质量和用户体验。
    2.其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的。
    3.另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。
    4.从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时发现有利于改善搜索引擎系统的服务质量。
    实际工作的搜索引擎往往是在爬虫阶段进行近似重复检测的,下图给出了近似重复检测任务在搜索引擎中所处流程的说明。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复网页,则直接将其抛弃,如果发现是全新的内容,则将其加入网页索引中。
    A、B、C、三篇页面文章是基本一样的。那么搜索引擎如何取舍呢?
    下面我们来说一下搜索引擎的取舍办法。
    A页面的推荐度总和为:100
    B页面的推荐度总和为:50
    C页面的推荐度总和为:30
    推荐度的意思就是权重。搜索引擎内部叫做推荐度。
    我们假设对于相同的页面搜索引擎的收录阈值是50推荐度。
    C页面是原创,被A个B两个页面转载了。
    那么会出现一种情况:原创首发的页面被K了,而转载的页面排名很不错。
    所以就算整个网站的文章全部是采集的。只要综合权重高。那么收录也会很不错。

    相同的内容,权重高的页面会覆盖权重低的页面。页面类聚。类聚掉。

网站优化

两种选择方案为您量身定制

根据您的需求类型,提交给我们!马上有专人联系您

联系

Copyright 2012-2019 重庆网搜科技有限公司 All Rights Reserved  备案号:渝ICP备13001039号

渝公网安备50010702505362

售前咨询

售后咨询

服务热线:15696152758023-68916240