十年一梦
86/180

32016·深水区

86V3_C14_分子

4456字 · 约9分钟

阅读进度 0%已读 0 分钟 / 共 9 分钟

V3_C14_分子

八月底。许畅在白板上写了一个数字。

100,000。

六位数。十万。他用红色马克笔写的。字很大。占了白板四分之一的面积。

"模型需要至少十万条标注对话才能跑起来。越多越好。"

"十万条从哪来?"我问。

"旧客户的十一万条先用。但质量参差不齐。格式不统一。有的是纯文本,有的带时间戳,有的有表情符号,有的只有半句话。这些数据要先清洗,再标注,才能喂给模型。"

"清洗是什么意思?"

"把脏的数据洗干净。去掉重复的。补全缺失的。统一格式。然后人工标注每一条的意图分类。退款。投诉。咨询。闲聊。每一条都要有人看一眼,判断它属于哪一类,然后点一下鼠标。"

"人工?"

"人工。AI学习之前需要人先教它。你不能直接把一堆没标签的数据扔进去。那等于给一个小孩一本没有图的字典。他翻一百遍也认不了几个字。你得一个字一个字地指着教——这是苹果,这是香蕉,这是投诉,这是退款。"

他又用了那个比喻。婴儿。苹果。张富贵那天在旁边没有戳笔帽。他已经听懂了。

"一条标注多少钱?"

"外包的话,一毛钱一条。"

一毛钱。我心里算了一下。旧数据十一万条清洗加标注大约一万出头。还需要补充五万条新的高质量数据。五万乘以一毛等于五千。加上清洗和管理成本,总共大约一万五到两万。

不贵。比请一个实习生便宜。比买一台服务器便宜。比任何技术投入都便宜。

周小薇在旁边听完算了一下。在她的本子上加了一行红色数字——标注间:月租900+6人工资约21000+电费网费约800=月支出22700。加上原有的13万月烧,总月烧涨到15万出头。

"涨了两万三。"她说。声音平的。"账上还有一百零五万。按十五万的烧法还能撑七个月。"

七个月。从九月到明年三月。这个倒计时比之前所有的都紧。

张富贵在笔记本上写了一行:"月烧15万。7个月。标注间开了。"

然后许畅说了另一句话。

"但标注质量决定模型上限。外包标注的错误率大约百分之十五到二十。就是说每五条有一条标错了。标错了喂进去,模型学的就是错的。垃圾进,垃圾出。"

"那怎么办?"

"自建标注团队。请几个人,坐下来,一条一条标。慢。但准。"


标注间在梧桐街旁边。一间月租九百的小房间。

二十多平米。六张桌子。六台二手电脑。屏幕不是一样的。有三台联想。两台戴尔。一台惠普。都是从二手市场收来的。最贵的一台八百块。最便宜的一台四百。

六个人。三个大妈。两个大学生兼职。一个王姐。

王姐是组长。四十五岁。之前在物业公司做行政。下岗了。在五八同城上看到我们的招聘。"数据标注员,月薪三千五,朝九晚五,周末双休。"她来了。第一天穿了一件碎花衬衫。头发扎着。指甲剪得很短。她说"电脑我会用,Office都会,你教我怎么标我就标"。

教了半天就上手了。打开标注系统。屏幕上一行一行的客服对话在滚动。每一行左边是客户说的话。右边是一个下拉框。"退款""投诉""咨询""闲聊"。看一遍。判断。点一下。下一条。

咔嗒。咔嗒。咔嗒。

六个人同时点鼠标的声音。节奏不完全一样但近似。像六个钟摆在走。偶尔同步了一下。然后又各自分开。

窗户对着楼道。楼道里偶尔有人经过。有人在打电话。说安徽话。声音从薄薄的玻璃窗传进来。灯管是白色的日光灯。嗡嗡响。把每个人的脸都照得有点平。有点苍白。

这就是AI的另一面。不是论文里的那种。不是白板上的那种。不是许畅屏幕上代码飞过去的那种。

是六个人。坐在九百块一个月的房间里。看着屏幕。一条一条地点。一毛钱一条。一天标一千条。一个人一天赚一百块。

高科技的底座是这个。

我站在标注间门口看了一会儿。六个人的速度不一样。王姐最快。她一分钟能标八到十条。看一眼。判断。点。下一条。她的手指在鼠标上几乎不停。偶尔停一下,是遇到了她不确定的内容。她会皱一下眉。想两秒。然后标。

旁边的大妈慢一些。一分钟五六条。她们边标边聊天。聊的不是数据。是菜价。是孩子。是隔壁小区的广场舞。她们的手在动。嘴也在动。脑子分成了两半。一半给标注。一半给生活。

两个大学生更慢。一分钟三四条。他们会看每一条的内容。有时候看完了会笑。有时候会皱眉。他们还在消化这些文字。王姐已经不消化了。她已经把文字当成了符号。退款就是退款。投诉就是投诉。不需要理解含义。只需要分类。

从"理解"到"分类"的转变大概需要两周。两周以后你不再看到一个人在抱怨。你看到的是一个标签。

许畅说这就是AI学习的过程。先是理解。然后是分类。然后是模式。最后是预测。

人和AI的区别在哪?人在分类的时候会累。AI不会。人在看到"你们垃圾"这四个字的时候会不舒服。AI不会。AI没有不舒服。AI只有概率。


我走到王姐旁边。看她正在标注的那条内容。

屏幕上的文字。2015年3月17日。来源:吴老板餐厅。客户留言。

"你们的菜是冷的。我等了四十分钟。服务员态度不好。要求退款。以后不会再来。"

又是这条。给吴老板打电话那周我已经看过了。那时候它躺在"第一批"文件夹里。42MB。现在它出现在标注系统的屏幕上。被一个叫王姐的四十五岁的女人读了一遍。

王姐在这条旁边的下拉框里点了"投诉+退款"。两个标签。咔嗒。下一条。

她不知道这条留言的主人是谁。她不知道这个人等了四十分钟吃到冷菜是什么感觉。她只知道这是一条"投诉+退款"。两个标签。一毛钱。

这些数据的原主人不知道。他们当年的委屈正在教一台机器说话。那个等了四十分钟的人。那个说"以后不会再来"的人。他的愤怒现在被分词了。被标注了。被向量化了。变成了一组浮点数。流进了神经网络的权重里。

他的一句话值一毛钱。在标注系统里。

在他说这句话的那天晚上。那句话的价值是一顿失败的晚餐。一次失望。一个不会再来的决定。

一毛钱和一个决定之间的距离。是AI的全部意义。也是AI的全部伦理。

我想到了转岗第一周小陈问的那个问题。"他们知道数据会被用来训练AI吗?"知道了又怎样。他们当时的愤怒不会因为被标注而减少。也不会因为被分类而消失。它只是被换了一种形式保存下来了。从文字变成了标签。从标签变成了向量。从向量变成了权重。从权重变成了一个AI的"理解"。

但这种"理解"跟人的理解不一样。人理解"菜凉了"的时候会想到温度。会想到等待。会想到失望。AI理解"菜凉了"的时候只知道这三个字出现的概率和上下文的关联。它不知道冷是什么感觉。它不知道等待是什么滋味。

它只知道概率。

也许这就够了。也许客服的本质不是理解感受。是解决问题。解决问题不需要理解。需要的是正确的回复。正确的回复不需要心。需要的是数据。

但我站在标注间里想这些的时候心里不太舒服。说不清是为什么。也许是因为我知道吴老板那个顾客等了四十分钟。也许是因为我在想——如果有一天AI替代了客服,那些被替代的客服人员会去哪里。也许他们会来标注间。坐下来。一毛钱一条。教机器替代自己。


王姐抬头看到我站在旁边。停下了鼠标。

"小赵。"

"嗯?"

"我问你个事。'我操你们垃圾客服'——这个标什么?"

"投诉。"

"那'你们家东西质量跟屎一样'呢?"

"也是投诉。"

"那投诉不都一样吗?"

我卡了一下。确实。投诉和投诉之间有什么区别?看了许畅一眼。他从旁边的工位走过来。弯下腰。看了一眼屏幕。

"不一样。"许畅说。"前一个骂的是人。后一个骂的是产品。"

王姐想了一下。"那我标两个?'对人投诉'和'对产品投诉'?"

"标。细一点好。"许畅说。"模型能学到的信息越多,准确率越高。粗了它只知道'这是投诉'。细了它知道'这是对人的投诉'还是'对产品的投诉'。以后回复的策略不一样。骂人的要先道歉。骂产品的要先解释。"

王姐满意地点了点头。转回屏幕。把下拉选项拆成了两个。咔嗒。继续标。

她坐在那张四百块的二手椅子上。手指在鼠标上一下一下地点。每一下都在教一台机器一件事。每一下值一毛钱。每一下的信息量是:这句话的意思是什么。

我站在旁边。第一次真正感觉到"AI"这件事不是论文。不是白板上的方框和箭头。不是许畅屏幕上的代码。不是刘海洋凌晨三点的重构。

是这六个人。每天每天。坐在这里。看着别人的愤怒和委屈。点一下鼠标。标一个标签。下一条。

AI的现实比AI的概念沉重一百倍。

我走回门口。回头看了一眼整个房间。二十多平米。日光灯。六台二手电脑。窗帘半拉着。梧桐树的影子从窗帘缝里漏进来一小块。在墙上晃。

这个房间里没有任何科幻感。没有全息屏幕。没有机器人。没有闪着蓝光的服务器。有的只是鼠标声。键盘声。日光灯的嗡嗡声。和一个大妈在问"这个标什么"。

所有的AI公司在PPT里展示的都是未来。没有人展示这个。没有人展示九百块一个月的房间和一毛钱一条的标注。

但这才是AI真正的样子。至少在2016年八月是这样。


八月最后一周。我做了一个决定。

三个愿意等待的意向客户——母婴电商、数码配件、连锁餐饮——拉进来做免费内测。

条件很简单:AI模块在他们真实的SaaS账号里运行。他们免费用三个月。条件是提供使用反馈。每周发一份反馈表。出了问题我们负责修。

许畅说:"现在精度不够。出了问题——"

"出了问题正是我们要的。"我说。"有真实反馈比在实验室里跑强十倍。实验室里的数据是假的。客户用出来的问题才是真的。"

三个客户答应了。张富贵分别打的电话。他的话术很简单:"免费用三个月。出了问题我们修。你帮我们填反馈表。双赢。"

母婴电商的老板娘说:"免费?那行。反正不亏。出了问题就当帮你们测了。你们AI如果把客户的退款请求识别成退货请求,那就搞笑了哈哈。"张富贵笑着说"不会的不会的"。心里想:也许真的会。

数码配件的李总说:"可以试试。但不要在我下单高峰的时候出bug。双十一之前如果还有问题我就撤了。"张富贵记下来:双十一前要稳。还有两个半月。时间够不够另说。但话先应下来。

连锁餐饮的徐经理说:"我先用一周。一周以后决定继续不继续。"这是三个里最谨慎的。做餐饮的人谨慎。他们见过太多"免费试用"最后变成收费陷阱的套路。

这是AI模块第一次脱离实验室。跑在真实客户的真实数据上。处理真实的客户投诉。回答真实的问题。犯真实的错误。

客户数还是五十一。但其中三个在做活的实验。

张富贵把这件事记在笔记本上。加了括号:"(AI内测三家,免费,等结果。)"


那天下午。张富贵跟我一起去标注间看了一眼。

他站在门口。没进去。看了两分钟。六个人坐在六台电脑前面。咔嗒咔嗒的声音。窗帘半拉着。外面梧桐树的影子在墙上晃。

走出来以后他在楼道里站了一会儿。

"这个……"他说。"是我以前工厂的感觉。"

他以前在安徽的一家五金厂打过工。流水线。每个人坐在自己的位置上。重复同一个动作。八小时。一天。一周。一个月。手不停。脑子不用。手在动。脑子是空的。

"对。"我说。

"那我们做AI。"他看着我。"是为了替代这些人?还是……"

"先用这些人。让机器学会。然后机器替代一部分。"

"那这些人呢?"

我没有说话。

他看了我一眼。低头发了一条微信。我没有看到是发给谁的。也许是发给他老婆的。也许是发给他爸的。也许只是打开微信看了一眼然后又关了。

"一毛钱一条。"他自言自语。"一天一千条。一百块。一个月三千。"他算了一遍。"跟我以前在工厂差不多。"

他没有评价好还是不好。他只是算了一遍。张富贵对数字有一种本能的尊重。数字不骗人。数字就是数字。一毛钱就是一毛钱。一个人的一天就值一百块。这不是剥削。也不是恩赐。是市场。

但他的眼神在离开标注间的时候变了一点。变得重了一点。他见过工厂。他在那里待过两年。他知道流水线上的人是什么感觉。手在动。脑子是空的。时间过得很慢。一天八小时。每一小时都一样长。每一个动作都跟上一个动作一样。唯一的变化是太阳从左边走到了右边。

他知道这种感觉。所以他离开了工厂。来了上海。做销售。用嘴。不用手。用脑子。不用身体。他以为他离开了那种生活。

现在他站在标注间门口。又看到了。同样的场景。不同的产品。工厂里是五金配件。这里是数据标签。工厂里是手动的。这里是鼠标点的。但本质没有变。重复。分类。麻木。

他什么都没说。走了。

下午四点。标注间里的日光灯嗡嗡响。窗帘半拉着。梧桐树的影子在墙上偶尔动一下。鼠标咔嗒声连绵不断。像雨。打在薄铁皮上的那种。不大。但不停。

有人喝了口热水。吸了一声。

每一条标注。一毛钱。每一毛钱。教机器一个字。

机器越来越聪明。标注的人还在这里。但她们不知道自己的工作有一天会被自己教出来的机器替代。

也许她们知道。也许她们不在乎。三千五一个月。朝九晚五。周末双休。在2016年的上海这已经是一份不错的工作了。

王姐今天标了一千零三十七条。她回家之前在本子上记了一行。每天都记。她说"记着才知道自己干了多少"。一千零三十七条。一百零三块七毛。但她拿的是月薪三千五。不是计件工资。所以她标一千条和标八百条拿的一样。但她还是标一千条。

她说"反正坐着也是坐着。标快一点早做完"。

这种朴素的勤奋跟刘海洋凌晨三点写两万行代码本质上是同一种东西。只是工具不同。一个用键盘。一个用鼠标。一个写的是代码。一个点的是标签。一个改变架构。一个喂养数据。但都是用手。一下一下地。安静地。没有人看见地。

王姐咔嗒了一下鼠标。下一条。

灯管嗡嗡响。窗外的梧桐叶子已经开始发黄了。八月底。夏天快过去了。秋天要来了。

但标注不分季节。一毛钱不分季节。AI的胃口不分季节。

它一直在吃。吃完了变聪明一点。聪明一点离80%近一点。近一点离吴老板的三千块近一点。近一点离"不是PPT"近一点。

一毛钱。一条。一步。