第03章 行为数据如何变成武器

第03章 行为数据如何变成武器

“你以为你在使用平台。实际上,你的每一次停留、滑动和犹豫,都在训练一个比你更了解你的模型。”


一个让人不安的数据:根据数据经纪行业的研究报告,一个典型的智能手机用户每年会产生超过一百万条行为数据记录。这些记录包括你在每条内容上停留的时间精确到毫秒级、你的滑动速度和方向、你犹豫了但最终没有点击的内容、你在什么时间段最活跃、你在哪些类型的内容上情绪波动最大。这些数据的颗粒度,比你的日记还要详细——因为你的日记不会记录你在凌晨一点十二分花了零点八秒犹豫要不要点开一条关于前任的帖子。

你打开一个购物 App,随便逛了逛,没有买任何东西,然后关掉了。你觉得什么都没有发生。但在那短短几分钟里,这个 App 已经记录了几十条关于你的信息:你在哪个商品页面停留了超过五秒,你放大了哪张图片,你把哪个东西加入了收藏又删除了,你滑动的速度在看到打折信息时变慢了,你在一条评论上停留的时间比正文还长。

这些数据单独来看,每一条都微不足道。但当它们被汇聚、关联、输入到机器学习模型中时,它们拼出了一个比你自己的自我描述更准确的画像。

你的行为比你的话更诚实

如果有人问你"你平时喜欢看什么类型的内容",你大概率会说一些让自己显得体面的回答:新闻、纪录片、深度分析。但你的行为数据讲的是另一个故事。你在深夜刷了四十分钟的美食视频,你在一条明星八卦帖子上停留了二十三秒——远超你看任何新闻的时间,你反复点开了一个情感博主的主页。

行为经济学家有一个概念叫"显示性偏好":一个人真正偏好什么,不看他说了什么,看他做了什么。你的嘴巴可以撒谎,你的行为不会。推荐系统深谙这一点。它不在乎你在个人设置里勾选了"我对科技和财经感兴趣",它只看你的真实行为数据。因为那些数据告诉它的信息量远远大于你的自我声明。

这本身并不邪恶。一个能准确理解你偏好的系统,理论上应该能给你更好的内容。问题出在:系统理解的"偏好"是什么?是你今天此刻最容易被吸引的东西,不是你长期真正需要的东西。你在焦虑的深夜被情绪化内容吸引,不代表情绪化内容对你有益。但系统不做这个区分。它看到你停留了,它就认为你"喜欢"。

实时反馈的闭环

传统的广告行业需要等几个月才能知道一个广告是否有效。电视台需要等收视率报告,杂志需要等发行量数据。但数字平台的反馈循环是实时的——不是几天、几小时,是几分钟甚至几秒钟。

你在一条短视频上停了八秒。这个"八秒"立刻进入系统。系统推断:这类内容对你有吸引力。下一条推送的内容就被调整了。你在新推送的内容上停了十二秒。系统更加确认了它的判断。你的画像被更新了。下一批推荐被重新排序了。你看到的内容世界,在你不知情的情况下,已经因为你之前的一次八秒停留而发生了微小但不可逆的变化。

这个闭环的速度快到什么程度?主流短视频平台的推荐模型更新频率是分钟级的。也就是说,你在三分钟前的行为,已经影响了你现在看到的内容。某些平台甚至做到了每次请求都实时推断——你每一次下滑,服务器都在对你重新建模。

你正在和一个反应速度比你快一千倍的系统进行互动,而你甚至不知道这场互动正在发生。

算一笔账:你产生了多少数据

让我们做一个简单的估算。你每天使用手机四个小时。在这四个小时里,你大约会产生以下行为数据:

解锁手机约八十次。每次解锁,系统记录时间、地点和你打开的第一个 App。滑动屏幕约两千次。每次滑动的方向、速度和停留时间都被记录。点击各种内容约三百次。每次点击的对象、时长和后续行为都被追踪。输入文字约五百字。在搜索框中输入什么、删除什么、犹豫多久,全部可见。

把这些加起来,你每天大约产生三千到五千条行为事件。一个月就是十万到十五万条。一年就是超过一百万条关于你的行为记录。

这些数据的价值是多少?根据数据经纪行业的公开报价,一个完整的消费者画像——包括购买意向、收入水平推断、兴趣偏好、行为模式——在广告市场上的价值大约是每人每年零点二到两美元。这听起来不多。但如果你乘以十亿用户,这就是一个每年两亿到二十亿美元的市场。你的数据就是这个市场里的原材料,而你从这笔交易中得到的报酬是零。

再换一个角度来看这些数据的价值。假设你是一个月薪八千元的普通上班族。一年的总收入是九万六千元。你每天在各种平台上产生的行为数据被用来优化广告投放,提高你的消费冲动。如果这些精准广告让你每年多花了百分之五的非必要消费——这是一个非常保守的估计——那就是多花了四千八百元。

你的数据不值钱。但你的数据被用来让你多花钱。这才是真正的经济学。

数据的交叉与拼接

如果只是一个 App 收集你的行为数据,影响还是有限的。但现实远比这复杂。

当你用同一个手机号注册了多个 App,当你在不同平台上使用了同一个邮箱,当你的设备 ID 被广告追踪 SDK 在不同 App 之间传递,你的数据就不再是孤立的碎片,而是一幅可以被拼接的完整画像。

你在购物 App 上搜了一款婴儿车。然后你在社交媒体上开始看到母婴用品广告。然后你在新闻 App 上的推荐变了,育儿焦虑类的文章排名上升了。你没有告诉任何一个平台"我有了孩子"或者"我正在焦虑育儿问题"。但数据经纪商把你在不同平台上的行为碎片拼在了一起,推断出了这个结论。然后他们把这个结论卖给了所有愿意付钱的广告主。

更深层的问题是:这些推断不总是准确的。也许你搜婴儿车是帮朋友看的,也许你只是好奇。但一旦系统给你打上了"新手父母"的标签,你的整个信息环境都会围绕这个标签重新组织。你开始看到更多育儿焦虑的内容,你的焦虑水平因此升高,你因为焦虑而更多地点击这类内容,你的数据进一步强化了系统的判断。这是一个自我实现的预言:系统猜你焦虑,给你看焦虑内容,你变得更焦虑,系统说"看,我猜对了"。

时间维度的武器化

数据不仅被用来了解你是谁,还被用来了解你在什么时候最脆弱。

系统知道你通常在晚上十一点到凌晨一点之间使用时间最长。它知道这段时间你的自控力最低,判断力最差,最容易被情绪化内容吸引。所以它在这个时段推送给你的内容,和你白天看到的不一样。更多的情绪触发,更少的严肃分析,更多的"你可能错过了"型通知。

系统也知道你在周一早上最可能打开工作相关的内容,在周五晚上最可能打开娱乐内容。它知道你在长假前容易焦虑,在薪资日后更愿意消费。这些时间模式不是你告诉它的,是它从你过去几个月的行为数据中自动学到的。

你以为你在不同时间做出的选择是你自己的自由意志。但有一个系统比你更清楚你的习惯模式,并且正在利用这些模式在你最脆弱的时刻影响你的选择。这不是假设。这是今天每一个大型内容平台都在做的事情。

数据不会忘记

还有一件你可能不知道的事:你的数据几乎不会被真正删除。

你删除了一个 App。你注销了一个账号。你觉得自己和这个平台的关系结束了。但你的行为数据早已经被打包、处理、与其他数据关联,并存储在远程服务器上。即使平台声称"已删除您的个人数据",通过数据经纪商传播出去的衍生数据——你的兴趣画像、你的行为模式、你的脆弱时段——已经不在原平台的控制范围内了。

在欧盟的《通用数据保护条例》实施之后,用户理论上拥有了"被遗忘权"——你可以要求平台删除你的所有数据。但"删除"在技术上是什么意思?平台可以从活跃数据库中删除你的记录,但已经备份到冷存储中的数据呢?已经被用于模型训练的数据呢?一个模型从你的数据中学到的模式,能不能从模型中"删除"?目前没有任何技术手段能做到这一点。你的数据就像墨水倒进了水里,你可以把水倒掉,但墨水的颜色已经渗透到了每一个水分子里。

你的每一次犹豫、每一次停留、每一次深夜的无聊滑动,都变成了永远不会消失的训练数据。它们在某个你不知道的地方,正在被用来训练一个你不知道的模型,而这个模型的目标是——在你下一次打开手机的时候,更精准地抓住你。


如果你只记住一件事: 你的数据不值钱——但你的数据被用来让你多花钱、多花时间、多交出注意力。数据本身几乎免费,用数据操控你的能力价值连城。