一.什么是消重?
我们都知道,在互联网上,同样的文章、图片、视频被多个媒体刊登,是很常见的情况。无论是网站,还是各种媒体平台上,原创内容除了原创来源之外,往往还会被很多其他媒体转载或复制。
如果我们用搜索引擎搜索一篇内容,经常会得到多个网址。在过去,我们只要自己筛选和判断,哪个网址更权威,更有价值,再点击去访问就可以了。但是想象一下,如果这样的景象是出现在你今日头条的信息流里——系统连续给你推荐了几篇相似的内容,会怎么样呢?
你可能会觉得:为什么要给我推荐一样的内容呢?系统应该选择最好的那个来源,给我推荐一次就够了——如果我想看,看一篇就够了,如果我不想看,那么重复推荐也没有意义啊!
没错,所以今日头条在推荐某篇内容之前,必须确定这篇内容:
-
在系统里是否存在相同或者高度相似的内容?
-
如果存在,那么这篇内容的来源是否是最权威、最有价值、最有可能是原创的来源呢?
消重就是指对重复、相似、相关的文章进行分类和比对,使其不会同时或重复出现在用户信息流中的过程。头条号平台首先会通过消重机制来决定同样主题或内容的文章是否有机会被推荐给更多用户。
二.消重的种种好处
你可能会觉得,消重对原创发布者有利,但对于那些善于发现和再加工优质内容的媒体不太有利,但是综合看来,我们觉得消重的好处是很多的,尤其对于用户来说:
-
优化用户的体验。对用户来说,同样主题的文章看一篇就够了;
-
鼓励原创!在文章相似的情况下,申明「原创」文章是后续获得推荐的重要指标;
-
给更多内容以曝光机会。因为用户的兴趣是确定的,如果每次刷新都反复推荐类似的内容,你发布的其他内容不就没有曝光机会了吗?
当然,总体来说,这是一个有利于原创者的机制,这也和头条号平台鼓励原创内容生产的目标一致。
三.头条号算法中的消重过程
如何判断两个内容是否相同呢?
如果让人来判断,可能就要逐字逐句地把文章读完才能判断得出来。通过计算机这样去判断当然也是可以的,不过,当每天需要处理的内容达到十多万篇次的时候,这么做即使对于计算机来也太麻烦了。
有没有更简单的方法呢?
有的,通过系统的计算,一篇文章的文本、标题、图片等都是可以转换成一串数字代码,这就像我们每个人的身份证,如果两个人的身份证号码一模一样,那么就可以肯定这是两个一样的人了,并不一定要仔细去看他们的长相。文字信息的「身份证」也能起到类似的作用,对于图片、视频等信息形式,原理也是类似的。
延伸阅读:
注意:此处介绍的只是计算原理,并非实际发生的计算过程。
信息的「身份证」,一种更常见的称呼是「信息指纹」,是计算机应用领域里经常用以判断信息重复性的方法。「信息指纹」的计算方法有很多种,但原理是相似的:
你可能知道,不管是中文、外文还是数字,在计算机系统里,实际上都是以0或1的代码形式存储的,例如大写字母A的ASCII编码就是01000001,而小写字母z的ASCII编码是01111010(实际上也存在很多种编码标准,ASCII是一种常见的英语编码标准,采用8位二进制数字编码)。这实际上就相当于,每个字符都有一个自己专属的信息指纹。
简单来说,计算会对文本中出现的不同字符的信息指纹,结合它们各自在内容中出现的次数,反复进行算术运算,最终得到一篇内容的信息指纹。理论上说,如果运算足够多的次数,就会产生足够独一无二的数字结果。
信息指纹的重复概率有多低呢?假设我们通过上面的计算,得到一串128位的二进制数字,这在计算机系统里只需要占用很小的空间,但是根据「抽屉原理」,这样的数字重复一千八百亿次才能重复一次!这对于一般的信息消重来说,已经非常足够了。
总而言之,相同文章具有不同信息指纹,或者不同文章具有相同信息指纹的概率都几乎是0,对于“消重”机制,不必担心误判,也不能心存侥幸!
原理上说,不同内容的身份证是不一样的,而相同内容的身份证是一样的。并且,相似的内容会具有相似的身份证。这是头条号的系统对内容进行消重的基础。
每一篇文章都有属于自己的「身份证」,用来与平台中的其他文章进行比对。通常有以下几种不同的消重机制:
1. 内容消重与「关键项」
在计算一篇内容的「身份证」之后,基本上有两种情况。
其一,这是一个系统中独一无二的身份证,换言之,同样的内容在系统里只有这样一篇。对于内容发布者来说,这恐怕是最理想的情况了,这种情况下,在向读者推荐相同内容时,系统除了推荐这一篇外,别无选择。
第二种就要复杂得多了,同时也是非常常见的情况:
系统里存在多篇不同内容,都具有同一张身份证。这时,系统就需要从这些相同内容中选择一篇“关键项”向用户推荐。进行选择的最终目的是保证向用户推荐的内容来自更权威、更有可能是原创来源的头条号。
如何判断哪个头条号更权威、更有可能是原创呢?两篇相同的内容,在内容本身之外可能存在很多的差异,这些差异就是判断的关键,具体的计算标准是非常多的,其中最重要的一些包括:
-
来源头条号是否开通「原创」标记;
-
发布时间;
-
来源的权威性和在网络上被引用的次数。
举例来说,假如「央视新闻」通过头条号平台在5月19日上午发布了一篇内容,「门头沟新闻」的头条号在5月20日上午转发了同样一篇内容,两者都没有标记原创,那么:
-
首先,根据文本分析,这两篇内容会被计算出一个相同的「信息指纹」;
-
接着,「央视新闻」是比较权威的新闻报道媒体,而且,「央视新闻」的内容发布时间更早,因此,是权威、原创来源的可能性就远远大于「门头沟新闻」;
-
那么,「央视新闻」所发布的同一篇内容,就会被认定是这两篇内容中的关键项( 官方英文名叫Keyitem),继而向用户推荐。
那么,假如说,同样的内容,5月19日先由「门头沟新闻」的头条号发布,5月20日再出现在「央视新闻」的头条号上,系统会如何判定呢?这就比较复杂了,但是综合看来,系统选择最佳内容来源的可能性非常大。
有一种例外的情况是,某篇内容被头条号利用「原创」功能,标记了「原创」,那么在这种情况下,系统会有很大的几率把这篇内容选择为「关键项」,无论其他因素的比较结果如何(尽管如此,「原创」头条号应该尽量谨慎地使用这个功能,一旦被举报滥用原创,查实后会被永久取消申明原创的资格)。
一旦系统发现了可能对某篇内容感兴趣的用户正在刷新今日头条客户端,那么系统会自动把具有同样「信息指纹」的内容中,经过挑选最优的一篇推荐到用户的信息流。剩下具有相同「信息指纹」的内容,就几乎不可能获得推荐了。
这就是基于内容的消重规则,这解释了为什么许多非原创的内容无法在今日头条获得推荐量的原因。
2.其他一些「消重」的规则
除了内容消重的规则外,头条号平台上实际上还存在这一些针对内容之外的消重规则。
-
标题和预览图片的消重。
原理与内容消重相似,只不过是只比较标题以及预览图片的「信息指纹」。
之所以要对具有相同的标题或者预览图片的内容进行消重(哪怕它们的内容并不相同),这是因为,假如用户没有点击内容详情页,这看上去就是系统把两篇一样的内容重复推荐给了用户!可想而知这样的浏览体验是很糟糕的,况且,很少有人愿意连续点击几篇看上去一模一样的内容,因此这样的推荐也很少起效果。
-
针对相似主题的消重。
你肯定对这样的景象不陌生:每当有某个社会热点事件或者话题出现的时候,媒体、自媒体、KOL们一拥而上,竞相报道事件细节或者发表观点,让你的微博、朋友圈被有关这件事的种种内容“刷屏”。
追逐热点,是媒体、自媒体很本能的一种行为模式,但是对于用户来说,需要的其实并不是反复看到相同的信息,如果有足够优质的报道或者观点的话,其实看有限的几条就够了。
机器为避免在同一时间段用户看到太多同一事件的文章,就会启动对「相似主题」的消重。
不难想到,对于主题的消重原理和对内容的消重其实原理是一样的,如果能对文章中全部的关键词进行统计并计算信息指纹,当然也可以对其中部分与话题相关的关键词进行统计并计算信息指纹。
在所有消重规则中,对内容的消重是最严格的,其他类型的消重则更加灵活一些,因为在信息流里看到重复的内容对用户是最不好的体验。
四.应如何避免被消重?
不管是自己原创,还是转载了网络上的优质内容,如果出现了被系统消重而无法获得推荐的情况,总是让人感到遗憾的。那么要如何才能避免这样的情况呢?
-
坚持原创!
如果内容完全是你原创的,那么,可以想见这样的内容基本上都是独一无二的,自然就不用担心消重的问题了。
当然这是最理想的情况,不可讳言,对于「原创」这件事,有时计算机的判断和人的判断是不一致的。原因是,计算机只能观察到互联网上发生的事,却对没有在网络上留下痕迹的事情一无所知!
一种比较常见的情况是,原创作者把自己的原创内容授权给了多家媒体,甚至有些媒体有首发权。而这些媒体可能都有自己的头条号,因此就把作者的原创内容先发到头条号上来了。
因此,当作者自己在头条号上更新时,也许因为发得比较晚,也许因为不如媒体有知名度,导致自己发布的内容没能成为「关键项」。因此,建议原创作者在给予其他媒体内容授权时,尽可能约定清晰。同时,如果可能的话,尽量把自己原创的内容,在自己的头条号上首发。
有些作者倾向于使用微信同步功能将自己的内容从微信公众号上同步到头条号上。但是有时这个策略会导致一些意料之外的「消重」问题。
因为这个功能需要调用微信公众平台的一些技术接口,因此头条号是无法保证它始终良好运行的。如果同步生效的时间比较晚,甚至同步失败。那么在这个过程中很容易发生其他头条号把原创内容先转载到自己的头条号上,并且成为「关键项」的情况。因此建议头条号运营者一定要谨慎使用微信同步功能,尽可能在头条号手动发布、首先发布。
-
面对「热点」要谨慎追逐。
别忘了「话题消重」这个规则,尽管这不如「内容消重」那么严格,但是一件事再热,读者的兴趣也是有限的。因此,如果不能确定自己创作的角度足够独特,自己的内容足够优质,那么就不要随意地追逐热点,免得做了无用功。
-
少用常见标题套路。
最后,起标题时,尽量挖掘自己的创意,起出一些别出心裁又有吸引力的标题,尽量少用网络上常见的标题套路,以免「撞款」了!要记得,标题也是会被消重的。