抖音的算法,是如何把你束缚在信息茧房里的?
今天vv直选的考官就和大家一起探索抖音算法的秘密:
一、背景
随着互联网时代(尤其是移动互联网)的到来,信息处于类似《三体》中“技术爆炸”的“信息爆炸”状态。
每天,EB的信息量诞生在互联网的各个角落。预计到2025年,全球每天产生的数据量将达到491EB(1 EB=1024 PB=1048576 TB)。
在这种情况下,消费者在信息获取方面无疑会变得更加主动和丰富。
但富有并不意味着有效。
纸媒时代,依然有专业编辑对内容进行筛选排版,然后“分销”给消费者。
但对于互联网产品来说,即使内容再丰富,如果用户不感兴趣也是无效的。
“效率”永远是商业社会的本质之一。意味着低效率随时可能落后或者被淘汰。
为了解决这个问题,
淘宝在2013年首次提出了“千人千面”的概念。依托淘宝十年发展积累的庞大数据库,从细分品类中抓取符合买家兴趣的商品,并优先展示。
而每一个在淘宝上购买或浏览商品的消费者,都会被平台打上标签,比如年龄、地域、客单价、收藏偏好等。
不同的标签,在千人千面的模式下,用户自然会看到不同的产品。
更高效的内容分发方式,从野蛮生长走向精细化运营时代。
在核心思想是“算法驱动”的张一鸣手里,今日头条、抖音等产品更是这种思想下养出来的灾难。
所以,作为一个互联网人,即使不用手写编程算法,了解相关算法的知识,以及相关内容分发和推荐机制背后的基本原理,也有利于认知上一个新的台阶。
二、算法推荐系统的两个核心
(a)为什么抖音如此令人上瘾?
很多人可能都有这样的经历:
在不同的场景(家里、地铁上、工作中)和不同的时间点(早上、中午、晚上),即使是同一个流派的电影,收到的内容其实也略有不同。
比如白天大部分会收到幽默的内容,晚上会收到略显悬疑的影视片段。
无论何时打开抖音,它都能让用户沉浸其中。好像感觉不到时间的流逝,往往一下子就过了一两个小时。
你会发现抖音似乎很了解你,因为所有推送给你的内容都是你喜欢看的。
抛开抖音的产品设计,沉浸式的消费体验,短平快的内容节奏等等。,还涉及算法推荐机制、运营策略等因素。
而内容的个性化分发,本质上可以用白话来解释:
让喜欢看女生的用户看到包含女生的内容。
但在现实世界中,放眼互联网,能做好这一点的公司其实很少。
那么难点在哪里呢?
(2)标注内容没有你想的那么简单。
很难定义标签和标注内容。
在标记一段内容之前,您需要做的第一件事是定义标签。
就是明确什么是苹果,什么是梨,而不是把苹果叫做梨。
一篇内容通常包括一级分类、二级分类、三级分类、标签等层次。
如动漫>:漫>:火影忍者>:火影忍者等等。
对于这些具有普遍认知的范畴和标签,通常最好是定义一下。
但是搞笑,漂亮之类的标签是因人而异的。
因为每个人的段子不一样,审美不一样。
有哪些内容又搞笑又好看?
萝卜各有所爱。标记之前,卡在定义上。
实际上,这里涉及到两个概念——实体标签和语义标签:
1.实体标签
广州是广州,上海是上海;是马云,淘宝是淘宝。
都是确定的实体,通常不同的人之间不会有太多的歧义。
2.语义标签
如沙雕、美女、奇葩等词,没有明确的指定对象。
不同的人有不同的认知,所以标记困难通常出现在语义标签的定义上。
语义推荐效果是检验一家公司NLP(自然语言处理)技术水平的试金石。
不同的公司根据自己的业务能力或需求,对标签粒度有不同的要求。
比如有的公司在拆分成火影忍者的时候并没有拆分下来,直接用这个词作为最小粒度标签。
与这部动画相关的内容都可以贴上火影忍者的标签,但难免会有一刀切的感觉,对后续操作也会有影响。
比如有的用户想看火影忍者或者搜索火影忍者,火影忍者里的其他都是推送搜索的。
而有些公司则继续拆:比如给鸣人>:鸣人、佐助、木本樱等实体标签。
所以可以看出,标签粒度越细,推荐的内容越精准,需要的资源就越多。
即使把全公司的阅卷团队拉到一个会议室,通过统一的培训和讲解,一个月后,大家终于对什么是美女有了统一的认知,审美也逐渐一致。
这样阅卷才能顺利进行?不要!
我们先喝一口水,然后继续聊。
(C)用户标签:可能是最难的部分。
1.用户尝起来像一个很难哄的女朋友。
比内容标签更难的是用户标签。
因为鸣人就是鸣人,一旦贴上这个内容的标签,就不会变成海贼王了。
贴标可以通过人工打标和机器训练来完成。
用户不一样。可能这个月他喜欢看火影忍者,算法推荐机制也给他匹配了相关内容。但是下个月他可能会因为朋友或者同事的推荐而开始看《海贼王》。
如果算法还没反应过来,继续向他推送鸣人的相关内容,而此时这些内容对他来说是无效的,从而影响内容的分发效率。
比如胡萝卜一直是胡萝卜,但是用户的口味一直在变。
我今天想喝汤,明天想吃肉。
其实涉及到“推荐缩小”的问题。算法机制越差,推荐内容越有可能被缩小。
不小心点了几篇,算法就会默认你喜欢这类内容,然后一直推送相关信息,不能根据用户需求灵活变化。
在这个时代,无论使用哪种内容产品,“信息茧房”的现象都不可避免地会出现,但实际的产品体验效果在成熟的NLP技术和初级水平之间还是有很大差距的。
2.
掌握用户的基本信息在做用户标签之前,你需要掌握与用户相关的信息,通常包括性别、年龄、所在地、兴趣爱好等。
1)性别有助于分发性别属性明显的内容,比如男生推送运动,女生推送美容护肤;
2)年龄也是如此:向年轻人推送动漫、游戏等内容,向老年人推送医疗保健、健康资讯;
3)位置用于推送区域热点相关信息:如果上海爆料推送给上海的用户,似乎北京限行对广州的用户影响不大。
以上三者通常可以通过用户自动填写并授权访问位置信息来获得,不会有大的变化。
3.掌握用户的兴趣偏好。
如上所述,用户的兴趣偏好是用户标签制作的难点。
获取用户兴趣和偏好的方式是根据用户消费过的内容匹配相应的标签。通常采用以下方式进行定位:
1)过滤噪音:如果用户被标题党内容吸引,但停留时间过长,说明用户对内容绑定的标签不感兴趣,从而过滤标题党;
2)热点降级:对于一些社会热点和突发新闻(如某明星出轨),虽然用户在短时间内浏览了相关信息,但并不意味着用户一定对“娱乐”内容特别感兴趣,有必要对用户的“娱乐”兴趣偏好进行降级;
3)时间衰减:如上所述,用户的兴趣会发生转移,因此推送策略需要更偏向于新的用户行为;
4)惩罚呈现:如果一篇推荐给用户的文章没有被点击,那么该内容的相关特征(如内容分类和标签)的权重将会降低。
举一个非常简单的例子:
例如,当一个新注册用户(女,25岁,上海人)刷抖音时,用A-A和A-B方法测试算法。
先连续推送两个视频片段(A-A),用户可以完整观看,赞,评。
其次,视频片段推送后,母婴内容(A-B)推送。用户仅观看视频剪辑,但母婴内容被移除。
那么就意味着用户对“电影片段”的内容兴趣偏好较高,对“母婴”标签的内容兴趣偏好较低。
4.不同内容类型的推荐权重
我们都知道,对于集成平台,通常有不止一种类型的内容。比如今日头条就包含了几种不同形式的内容,比如长图文、小视频、短视频、问答、微头条。
即使是同一个标签,比如“美颜”,不同内容类型的推荐权重都一样吗?这也是算法推荐机制需要考虑的问题。
三、如何衡量推荐系统的好坏
推荐内容是否准确,通常可以直接从数据中分析出来。
CTR(点击率)、花费时间、点赞、评论、转发等“可量化指标”。
比如Y=F(X1,X2,X3),Y代表可以曝光的内容权重,x代表赞、评论等实际参数。
评论的影响力权重通常大于赞的影响力权重,不同平台因产品差异对参数的权重设置也不同。
但由于各自账号的“置信度”不同,即使不同用户喜欢同一内容,对内容的影响力权重也不同。比如在知乎这样的大V,权重明显和普通账号不一样。
但有时数据是有缺陷的。对于低俗、头条化、色情化的内容,如果短时间内吸引大量用户点击浏览,算法能否判定为好内容,增加推送量?
答案显然是否定的。
因此,主要有以下需要抑制和降低功率的内容:
1)抑制广告和低质量处理内容;
2)查禁色情、低俗、恶心的内容;
3)标题党、低质量账号内容降级等。
基于社会责任、政策法规等因素,平台需要对这部分内容进行打压和降级,插入重点时事新闻。
这些算法都不能独立完成,需要通过运算来协调。很多信息平台会有专门的首页运营团队,对内容进行人工干预。
APP每日通知栏的推送内容,大部分也是算法+人工的方式推送。
四、总结
回到开头:让喜欢看女生的用户看到包含女生的内容。
要实现这个简单的句子,你需要做到:
1.内容标签的准确定义和标记
因为不同的人对同一个语义标签有不同的认知。
2.用户标签的精确匹配
很明显用户对哪种“妹子”的偏好更高:长发的女生?还是短发女生?不管是南方人还是北方人,等等。
用户的标签建立在内容标签输入足够准确的前提下,一步错一步。
如果不能准确判断内容标签,那么基于内容标签的用户标签就不可信。
3.
算法训练为了训练机器自动标记,通常需要几周时间来训练一个“标签”。
通常情况下,标题关键词是用来标记内容的,但有时标题与文章或视频中表达的所有内容有较大差异,所以标记很可能是不准确的,需要人工检查来判断其准确性。
总结一下,现在算法分发几乎是所有搜索引擎、资讯软件、内容社区、社交软件等产品的标配。
算法代表了一种系统地描述和解决问题的战略机制。
所以,无论你是产品还是运营,了解内容平台的基本算法原理,无论是对产品推荐机制的设计,还是对平台运营策略的构建,都会有所帮助。
如果您的问题还未解决可以联系站长付费协助。
有问题可以加入技术QQ群一起交流学习
本站vip会员 请加入无忧模板网 VIP群(50604020) PS:加入时备注用户名或昵称
普通注册会员或访客 请加入无忧模板网 技术交流群(50604130)
客服微信号:15898888535
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若内容侵犯了原著者的合法权益,可联系站长删除。