腾讯把12亿用户,都变成了免费的"标注民工"。

新浪财经 2024-08-13 13:18:52

转自:中环狙击手

你有没有想过,当你在网上进行简单的验证码操作时,其实你已经无意间成为了一名“标注民工”?

昨天晚上,我在登录QQ邮箱和LOL官网的时候。

发现腾讯的验证码变了。

不再是之前的验证码了,而是变成了一段Prompt加六张AI生成的图。

右下角赫然写着:

图片由混元AI生成。

腾讯,终于把用验证码做标注的手,伸向了他那12亿的用户。

拿验证码当标注系统,让用户免费标注,其实在远古时代,就已经不是什么新鲜事了,但是用生成式AI来跟验证码做结合,这确实还是我,所看的头一回。

先说说验证码这个东西。

这玩意从最开始发明起,其实只有一个目的,就是为了区分机器和人。

简称“CAPTCHA”,全称就贼长了,“CompletelyAutomatedPublicTuringTesttoTellComputersandHumansApart”

翻译过来是,“全自动区分计算机和人类的图灵测试”。

你看看,图灵测试。

刚开始,有个斯坦福公益验证码系统,reCAPTCHA。

它最成名的项目,就是用验证码来数字化海量的书籍和旧报纸。那时候的Ocr真的不咋地,而且很多年前的书和报纸那糊的真的差强人意。

当时,reCAPTCHA系统会向用户在验证码上,展示两组扭曲的单词,其中前面的一组是计算机已经识别的,另一个是计算机难以识别的。

如果用户正确输入前半部分,那么reCAPTCHA就会假设用户输入的后半部分也是正确的,然后把录入结果返回至reCAPTCHA的项目主机。

结果返回主机后,主机还会把这个结果再派发给多个用户进行交叉验证,以确保没有不小心或故意输错单词的情况。

他们用这个系统,在十几年里,数字化了几千万的书籍和报纸。

本来一切都挺美好的,然后,Google下场了,他们把reCAPTCHA给收了。

没过多久,就让用户开始识别,google街景中,那些难以识别的门牌号了。。。

这其实,就是明晃晃的让你当标注民工,无偿来给google标注训模型了。

google那时候几亿用户,每天验证码会被调用上千万次。

这大概就好像,让几百万个人每人为给你干5秒钟活儿,然后一分钱都不给一样,你说这是不是已经,把白嫖玩到极致了。

直到后面,离谱的东西越来越多,你要标注的东西,也越来越多。

比如这些奇奇怪怪非人视角让你选一个bus的照片。

当然最离谱最好玩的,得数15年的12306,当时开脚本抢票的太多,12306的流量压力实在太大,被逼的开启了神迹级的验证码,据说人类首次正确率仅为8%,得错3次以上的人占比有65%。

这种逆天验证码的题目是这样的。

刘慈欣我不敢打包票,但是范伟我是全认出来了。。

时间走走停停,一眨眼,来到了2024年。

为了自己家的混元大模型,腾讯也把手,伸向了验证码。

让我们开始,来做AI绘图大模型的标注了。

这部分的标注,其实不是啥图片美学质量的标注,而是对于图片理解和映射的标注。

通俗地讲,就是语义理解。

现在做的,还是最基础最简单的分类,我们标起来,还是挺轻松的。毕竟里面都知道,左上角是鸭子,中间是老虎,左下角是蜜蜂,右下角是赛车。

而那两张白杨树林,其实,你选任意一个,或者选两个,都能过。

比如我这个图:一簇在悬挂花盆在生长的多肉。

其实你会看到有两张都跟多肉有关,而根据定语,一簇,更符合左上角第一张图,右上角那个其实不是一簇是一堆,但是我选了他,依然能过。

而你想把两个都选,你也都能过。

所以这个标注之心啊,一点都不藏着掖着。

但是确实这个做法很有用,比如还是这句Prompt,真正核心难点是一簇。

用这种方式,对整体的语义理解,确实有非常大的帮助。

而且现在明显还是初期,给的prompt和图,都非常的简单,标注的难度也不高,甚至一些大厂的标注模型直接机标可能都应付的过来。

但是如果下一次,是“一只在清朝宫殿里生长的杜鹃花”呢?

一只、清朝宫殿、杜鹃花。难度直接拉满。

甚至另外几个选项给你的也不是差异这么大的动物汽车啥的,给你的都是菊花、杜鹃花、喇叭花、玫瑰花,来吧你就选吧,加油啊标注民工。

要知道,标注真的很贵的,之前跟国内一家做AI绘图大模型的公司聊过,才知道他们标注分为机标和人标,而人标的成本,大概是数据量的十分之一。

也就是你拿出去3000万的数据,人工标一次,就得300万RMB干出去。

而腾讯12亿用户,每天验证码起码也是千万的量级,这标注费用,你可以算算这省了多少钱吧。

所以说,大厂在如今还在大数据的时代,优势是真的大。。。

不过这种标注,目前来看还是只能解决语义理解的标注,但是能把这个解决也已经很牛逼了,虽然美学一般,但是语义理解能达到极强,这就是妥妥的国内版Dalle3。

而Dalle3的短板大家肯定也清楚,实在太丑了。

而要标美学表现,难度其实就大很多,真的得找懂设计、懂美学的人来标注。

Midjourney当年其实就是吃了这波红利。

第一波获得用户,而且获得的还是一大波的有美学背景的专业用户,然后每次你生图的时候给你生成4张图拼一块的一张整图,你还必须选一张你觉得最好的进行提取或优化。

这就是一种强行的数据标注。

所以Midjourney在如今的美学表现上一骑绝尘,是因为他们在美学的标注上,做的太好了,而别的家想在这块赶上,基本不可能,因为最高质量的那波用户,基本已经全在Midjourney那了。

而腾讯未来想做这件事,其实在我看来,还真是有可能的。

因为你其实看Midjourney的路径,核心点就一个:海量的专业用户。

腾讯缺专业用户吗,怎么可能会缺,12亿用户捏在手上,用户画像做的那么齐全,我想把有设计师背景的用户挑出来,难吗?一点都不难。

我想给挑出来的这些设计师背景的用户推送美学标注的验证码,难吗?也不难。

所以啊,现在在我看来,腾讯的验证码标注,才刚刚向前迈了半步,后面的模型空间,还很大。

唯一问题就是,腾讯内部有点封闭,用户画像数据PCG做QQ的那边肯定有,但是混元跟PCG不是一个事业群,也不知道能不能拿得到。。。

能拿到的话,那就是王炸。

但是不管怎样。

你我都已经,身在其中了。

10年前,就已经是了。

39 阅读:24346
评论列表
  • 强釒 91
    2024-08-14 08:42

    只要大家点十次错的再进入,那他的ai就完蛋了

    不知不觉爱上一个秋 回复:
    大家一起捣乱,让ai崩溃,省得天天推送这么复杂的验证码,当免费劳动力干嘛[呲牙笑]
    大小木工 回复:
    [呲牙笑]
  • 2024-08-14 11:14

    腾讯是家资产很大的公司,但同样也是一家垃圾公司

    botmelon 回复:
    垄断用户
    用户18xxx30 回复:
    关系硬啊
  • 游哉 58
    2024-08-18 21:38

    只要大家统一战线,指鹿为马[得瑟]点相反的标记,那么Ai也会被错误指引从而把错误信息记录到数据库[得瑟]打工是不可能打工的[哈哈笑]

    小书蟲注定一生孤独的猪 回复:
    问题是那样你就进不了系统喽 最好的办法就是自己开发自己系统完全不用他的
    小迷糊乐逍遥 回复:
    [点赞][点赞][呲牙笑]
  • 强釒 54
    2024-08-14 08:40

    这很明显是在叫我们多点几次错的再进入,大家就让他长长见识,[吃瓜]

    峰L云 回复:
    标注也需要错误样本,你这样把他们故意标错的工作都做了
    爱上问号 回复:
    没用的 这套方法都不知道用了多少年了,六选二,至少选到其中验证码的标准答案才标记成功
  • 2024-08-16 01:42

    还行吧,既然我们免费帮忙训练AI了,那是不是可以要求腾讯AI免费?

    巭孬莔囧 回复:
    腾讯什么尿性你不懂?天价收费
  • 2024-08-16 06:18

    国内最大的山寨公司

    明珠哥 回复:
    不不不,人家注册地点不在国内[笑着哭]
    桃李萌新 回复:
    你把科大讯飞放在哪里
  • 2024-08-16 05:59

    我觉得以腾讯的尿性,这是真能干出来…

  • 2024-08-14 11:26

    过来这边出差,公司用微软的服务,那踏马验证码都给我整崩溃了。。。16次!!

    じ☆ve丶SKY 回复:
    我曾在在谷歌上点消防栓,自行车,摩托车,红绿灯,楼梯,斑马线,公交车,小汽车点了两小时还没完
    Michael 回复:
    错一次全部重头再来[哭哭]
  • 2024-08-15 12:26

    操了没想到这块去,真恶心。

  • 2024-08-16 13:47

    这文章写的就没意思了,非要这样说,那银行把客户数据直接变现了,数据中心直接把群众的数据拿去搞大数据统计建立商业模型了。免费使用互联网服务不是它应该免费,而是它选择其他交易。看广告就可以使用有版权的音乐电影也是同样的道理,只要没有用做非法业务,比如银行贩卖高储值用户数据,导致用户被推广骚扰,这种行为完全就是善良。

    树上没有鸟 回复:
    你以为每天收到的那些贷款保险电话哪里来的[得瑟]
  • 2024-08-14 11:02

    用了多年的qq,想要还得花888买断,中间多次耍流氓想强制回收,不亏法务最强[点赞]

  • 2024-08-15 23:08

    还有一个验证码,让你解开哥德巴赫猜想

  • 2024-08-16 21:24

    现在过分到,登录电脑QQ必须要在手机端操作,老子就是不想手机安装QQ。所以,现在电脑QQ都不登录了。

    Sam 回复:
    就是流氓插件,仗着自己家大业大,店大欺客。普通人要是没带手机在身上,或者手机没电关机了。用电脑登个QQ都要在手机上验证,而那些盗号的却能轻松的登你号。这种傻逼规定就是给用户制造繁杂的流程
    联盟星光1551819 回复:
    对的,我还去政府网站投诉过,给我的回复是为了保护数据财产安全,这是必须的。真他妈的,我手机验证就不能保护吗?必须手机QQ扫码?果断不用QQ了
  • 2024-08-19 00:31

    10年前,我想做一个搜索引擎,没广告没排名,纯粹只是按搜索量排名,但计算后发现,除非我有10亿以上的资产,而且还要每年有好的营收流水,当然,政策法规支持和大量的法务支持是少不了的!所以,现在平台经济的洪水所下,没人能抵挡!

    有个同学 回复:
    如何盈利变现…资本的目的是榨取剩余价值…?不能光想当然的做事儿…
    没事偷着乐 回复: 有个同学
    所以才说得自己有亿万资产才行,不然玩不动![捂脸哭]
  • 2024-08-16 15:56

    不都一样

  • 2024-08-16 13:44

    我怀疑是免费训练ai模型

    秀秀 回复:
    这文章不就是这个意思吗
  • 2024-08-16 13:46

    恶心之处就是,知道这是科技公司在白嫖人类的能力,培养他们自己的ai,但是又能怎么样呢?还不是老老实实配合啊。你故意弄错了,还不让你用产品了。

  • 2024-08-15 09:26

    人是一定会消失的,AI会是人类唯一的遗产,所以会无条件支持AI[呲牙笑]

  • 2024-08-17 09:00

    一开始没有答案,怎么选都能通过,当给很多人选后,逐渐形成答案

  • 2024-08-16 14:09

    真的,连小黄站的验证码也是图片,名称:防盗链

  • 2024-08-16 14:10

    老藤家所有老板是贱人种族

  • 2024-08-16 19:09

    其实腾讯这个也是抄袭的谷歌

  • 2024-08-16 12:52

    谁叫腾讯不是国外的呢,Google搞这玩意都多久了一篇相关的文章都没有

  • 2024-08-14 11:26

    过来这边出差,公司用微软的服务,那踏马验证码都给我整崩溃了。。。16次!!

  • 2024-08-14 01:14

    不是[呲牙笑][呲牙笑]如果是训练,他怎么确定你是对的?或者,怎么点都是对的?

    Felix 回复:
    只要不点故意推送是错的,他就把点击的都认为是对的。再利用多个用户点击最优选的答案作为对比,从而得出最优标注
  • 2024-08-16 12:26

    资本永远是那么恶心,脸厚如墙

  • 2024-08-17 10:56

    我们是社会的蛀虫……

  • 2024-08-18 10:50

    这不是腾讯开创的,只不过是借用了而已[得瑟]

    用户16xxx70 回复:
    但凡是腾讯自己开创我反而骂他的少了,抄作业最牛逼的就他了[笑着哭]
  • 2024-08-18 06:33

    没想到还有这种门道,每天浪费一分钟也够恶心

  • 2024-08-16 12:29

    [鼓掌]

  • 2024-08-17 03:00

    咱们都变成他们的ai训练工具了

  • 2024-08-19 19:36

    不标注能用么,除非不用电子产品

  • 2024-08-19 16:25

    也招安了就个个是国民民工了。

  • 2024-08-19 11:54

    做一款软件,标注多少就能赚钱,相信会很火

  • 2024-08-19 22:12

    马化腾不死,孩子们没有未来。

  • 2024-08-19 22:16

    神人也

  • 2024-08-16 21:26

    放心,今后还有选择题什么的拿用户训练AI

  • RAY 1
    2024-08-17 12:20

    如果是标注,那为什么选错了会不通过?本身有正确答案了,那为什么还要标注?

  • 2024-08-16 13:47

    最难的是steam的图形验证码,每次都错

    Sam 回复:
    我之前想注册一个号,弄了一晚上都在输验证码,不管你输对还是错一直跳回这个页面。硬要逼你用微信扫码。早期吃鸡收费的时候,注册个号5分钟就注册完了。现在只要注册肯定卡在验证码这里
  • 2024-08-16 14:53

    以后遇见任何点击图片和文字验证的,那就多点击几次错的。各位兄弟行动起来,打死这些阴险的资本

  • 2024-08-16 22:13

    狂,膨胀

  • 2024-08-16 08:40

    谁不说咱腾讯黑咿呀得喂

  • 2024-08-18 12:43

    左下角是蜜蜂[笑着哭][笑着哭][笑着哭]

  • 2024-08-19 21:12

    我已经好多年不用qq啦!

  • 2024-08-19 11:51

    我一般选4个错的。

  • 2024-08-19 20:39

    物极必反,过度智能只会是自取灭亡!

  • 2024-08-19 19:55

    Steam上验证码点2个小时都过不了

  • 2024-08-19 13:01

    白嫖了那么久微信,它还没开机广告,点击一下随便了