浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试各种姿势,把他们的无边脑洞和温情故事讲给你听。
当年轻人在说“夸克真香”,他们在说什么?
文 | 史中
这世界上有两种人不好惹,P站用户和B站用户,而且他们还很可能是同一拨用户。
我相信B站用户永远正确。毕竟即使不正确,等把那些不喜欢他们的叔叔阿姨熬到帕金森擂不动键盘的时候,他们自然也就正确了。
所以,我的一个隐秘癖好就是:蹲守在很火的B站视频中,研究大家在弹幕里讨论什么东西。
前两天,我偶然看到了知名UP“苏星河”的一个视频《我来讲讲为什么Safari是手机上最好的浏览器》,结果正片还没开始,一票水友都在弹幕上刷:“夸克真香”、“夸克yyds”(永远滴神)。
一堆夸“夸克”的夸夸词汇碾过屏幕,让屏幕正中的 Safari 图标多少带点尴尬。
他们说的夸克,应该就是那个“夸克搜索”。
我估计浅友里肯定有人还不知道夸克,这情有可原。毕竟这个搜索引擎是年轻人的菜,你们不都是像我这样的00后。
我记得大概两年前下载了夸克,它用起来简单直接,比 Safari 快了十个百度,特别适合我这样的快枪手。
于是它被我分在了这样一个奇怪的文件夹里。
可夸克到底好到啥程度,以至于一群粉丝要去 Safari 的地盘上游行?这个我还真拿不准。
我决定仔细研究一下。
当然我的研究方法比较NB,毕竟我是一个想认识谁就能认识谁的中哥,是时候施展魔法了。我戴上口罩冲进北京零下20度的寒风里,直接去找夸克 App 的产品技术同学们喝了个咖啡。
(一)一个拯救学渣的搜索系统
一位夸克的同事看到风尘仆仆的我,说:“中哥你来晚了,整个2020年已经有好多老铁换了各种姿势夸我们了,用户量比火箭窜得还快。”
“你们究竟干了什么,难不成把大家都给PUA了?”我问。
那不敢,不过这两年我们在夸克搜索里做了很多功能,比如“指令控制”、“搜索直达”,大家都挺喜欢。但说出来你可能不信,2020年我们最香的模块是“夸克学习”。
他说。
“纳尼?夸克学习?有人在搜索里学习?学啥?咋个学法?”
我掏出手机定眼儿一瞧,还真有。。。
虽然心里全是问号,但中哥毕竟是身背一定流量的偶像,举止要沉稳。于是我冷静了一下,说:“我懂,我也是爱学习的人,在我的D盘专门有一个文件夹叫就叫做学习资料。总之我想和夸克学习的团队聊聊。”
于是,夸克学习的产品经理夏雅曈坐在了我面前。
你听听这个名字的风格,如果不是民国时期的人,那一定是个90后。果不其然,她是一位93年的妹子,创造了我从艺以来见过产品经理的年龄最小记录。
夏雅曈
然而她的记录只保持了15秒,因为旁边这位名叫寇至爽的团队成员是94年的。。。
寇至爽
故事就从2020年春天说起吧。
那时候,你懂的,几乎所有有头有脸的 App 都上线了疫情防护的模块。毕竟这么多年夸克是一票年轻人的心头好掌中宝,保护我方祖国的花朵很重要,于是夏雅曈他们春节加班搞定了帮大家防疫的“疫情实时动态”模块。
一口气还没喘匀实,他们突然发现一个有趣的现象:在夸克上“搜题”的老铁越来越多,暴增50%。
搜什么题呢?
“比如有人会搜《岳阳楼记》,这看上去很像是在做作业。”夏雅曈说。
“我不信,万一是古诗文爱好者呢?”我摆出鲁豫脸。
“从当时的大数据来看,搜语文知识的人通常也会去搜索勾股定理、英文单词之类,还有一些地理历史知识,你看,这就非常像学生了。”她说。
到底为啥这么多人在夸克搜题嘞?
其实很好解释:第一,夸克的用户群本来就是年轻人,有很多人在亲自上学。第二,疫情刚稳下来,学生们都被困在家里上网课呢,平时做作业遇到不会的题也没老师可问,最方便的可不就是上网搜么。
寇至爽他们想了想,忽然想出了一个“至爽”的脑洞——既然用户这么喜欢搜题,那我们为什么不帮人帮到底,送佛送上西天呢?
于是,他们设计了一个逆天的“小球”。同学在钉钉上网课的时候,夸克就变成一个小球安静地蹲在右下角,当屏幕上的PPT里出现了题目时,只需要点一下小球,见证奇迹的时刻就到了。
夸克会把屏幕截图,框选题目,它就会去后台的题海里匹配,然后瞬间返回这道题的答案。不仅有答案,还有解题过程和思路,比闪电五连鞭还快。
大概就是这么个效果
万万没想到,上个网课还开挂了呀。
金杯银杯不如学渣的口碑,大家都没反应过来,几天之内夸克 App 的下载量已经冲到各大应用商店的前头。
最巅峰的时候,所有过来的截屏搜索请求,有90%都是在搜题目。
寇至爽挑挑眉毛,示意我不用控制,可以尽情夸他。
仅仅是做了个小功能,就带来这么大的搜索量,夸克团队的小伙伴都惊呆了。不过开心之余,他们马上发现一个巨大的 Bug——海量的搜题请求并不是每一次都能得到答案,有很多同学欢欢喜喜搜题来,但却两手空空回家去。
这是为啥呢?
这里给你科普一段小知识:
1、负责为同学们的题目找答案解析的东西叫做“搜索引擎”,这个你是知道的。
2、搜索引擎分很多种,最主流的叫做“网页搜索引擎”,百度、Google,包括夸克主要的搜索引擎都是“网页搜索引擎”。你输入关键词,它能帮你找到相应的网页。
3、还有很多其他搜索引擎,例如我们用到较多的就是“图片搜索引擎”。你输入关键词,它给你找到相应的图片,或者你上传一张图,它给你找来类似风格的图片。
问题来了:那搜题的引擎是啥引擎?
在中哥看来,这应该是一种结合了网页、图像、人工智能技术的“专用引擎”,它的工作原理拢共分三步:
1、一边它会先用文字识别技术,把用户拍的图片中的文字抽取出来,得到一个题目的纯文本。
2、另一边网络上有海量的题库,很多也是图片的形式,同样要抽取成纯文本格式。
3、最后把用户提交的题目和题库里的题目的纯文本做匹配,从而找到这道题的答案。
说到这你可能有点感觉了,搜题引擎和传统通用引擎不太一样:
如果把通用搜索引擎比作人人都坐的汽车,那搜题引擎就像是小区里送快递的“菜鸟无人车”,虽然个头不大,也不是人人都用,但技术含量却是杠杠的。
好,科普完毕,我们回到故事。
说个小内幕。在疫情之前,夸克搜题确实是个小众功能,所以团队并没有投入很多精力,背后的“搜索引擎”接入的是第三方服务,效果差强人意。
这回看到搜题量暴涨,团队同学们立刻从葛优躺变成了金刚狼:咱们是不是要自己推出一个搜题引擎?这样不仅掌握核心科技,还能大大提高解题率!
毕竟家里技术底子还是有的(夸克是阿里巴巴的产品),夸克的同学们决定,搏一搏单车变摩托。
(二)老司机斗麻匪
重担一下子压到了夏雅曈和团队的身上。
作为产品经理,他们首先要回答一些灵魂拷问:究竟哪些学生在搜题?他们会在什么情况下搜题?他们搜题时希望看到怎样的答案?
这些问题的答案可太太太重要了。毕竟,你懂的,如果搜题的都是学渣,想要抄答案,那这个产品道德上就不太成立了。。。
于是,夏雅曈在夸克里向使用搜题功能的同学们发送了邀请,让他们来一场赤裸裸的“灵魂自白”。
结果大大出乎意料。
我猜你和我一样,以为只有学渣会搜题。但事实恰好相反,学霸也搜题,而且搜得更多,更狠,更仔细。想想倒也合理,比你有钱的人,一般都比你努力。
其实学霸搜题的需求很复杂:不仅要找答案,还要了解详细的解题思路,还要知道这背后隐藏的知识点,最好再来几道同类型的题目巩固一下才心满意足。非常之鸡掰。
其实不光是学生,老师和家长也要搜题。
老师在课堂上要讲课,课后要批改作业、备课、辅导,拍照搜题可以帮他们把解题的时间节省下来,把更多精力放在琢磨教学内容上。
家长们主业是上班,晚上副业还得辅导孩子,经常还遇到题目不会做,甚是丢人。即使自己会做,但是有时又跟孩子讲不明白,这时候他们也需要搜题。
这些事实让夏雅曈他们虎躯一震,原来搜题功能真的可以帮助更多爱学习的同学节省时间,巩固知识。那这利国利民的事儿可就干也得干,不干也得干了。
2020年6月,就在人们在苏星河的视频上刷“夸克真香”的档口儿,“自研搜题引擎”项目正式上路了。
说到这,就不得不给你介绍一位新朋友,王杰雄。
王杰雄是一位技术大咖,想当初90后还忙着早恋的那些年,他已经加入了阿里云,和大家一起做“雅虎中文搜索”(估计很多00后都没听过),掐指一算,搜索技术这事儿他已经干了十年。
王杰雄
接到夸克的任务,他露出了大菊已定的微笑:就这?
然而,上手之后不久,一种隐隐的哪里不对的感觉袭来。仿佛一个即将上任的县长,本来吃着火锅唱着歌,一抬头突然面前出现一票麻匪。
这第一个麻匪就是“文字识别准确率”。
文字识别,准确名称是 OCR(光学字符识别 Optical Character Recognition)。它像一个不知疲倦的“誊写师傅”——你把一张图片给文字识别系统,它就能帮你把上面的字给识别、抄写出来。
你有没有给支付宝绑过银行卡?扫一下卡面就能识别出上面的卡号,这就是文字识别系统*。
大概就像这样。
但是,这系统也不是神仙,它有一定出错的概率。越是质量差的照片,从中提取文字就越可能出错。(这并不怪系统,你平时看一些学习资料时,陈年画质和高清无码,你从中学到的知识量也是不同的嘛。)
问题是,这套文字识别系统是阿里巴巴技术中台团队做的。王杰雄为了赶时间,只能拿现成的用。
虽然中台团队老师傅的技术没的说,但这个系统是针对通用场景的文字识别,没办法针对搜题场景做优化。(毕竟这个系统服务整个阿里巴巴,没办法为了夸克一个八字没一撇儿的功能做定制开发。)
所以在文字识别率上,王杰雄就像开特斯拉撞蚊子——有劲儿使不上。
好吧,这第一个麻匪消灭不掉,只能先对付第二个。
这第二个麻匪就是“带噪搜索”。
由于 OCR 识别存在一定误差,所以会给搜索算法带来巨大的困难。
举个栗子:
比如一道应用题,原题写的是“小明拿着纸币买裙子”,也许被系统识别成了“小朋拿着纸巾卖裙子”,这种情况下继续搜索,就叫搜索请求中带着“噪声”。
更大的噪声来自于用户拍题的时候——有可能手抖,题目很模糊;有可能框选的范围太大,除了要搜的题目,前后还各带了半道雨女无瓜的题目。
例如拍这第5题,在拍题的时候会出现混入手写字、框选到其他题目、照片不清晰等等问题。
很多时候,带了噪声看上去就像完全换了一道题,系统自然就没办法把这道题和题库中的题目匹配准确。
这时,王杰雄他们就要尽力让系统学会“带噪搜索”。
简单来说,就是香农的信息论原理。信号有噪声的情况下,就要增加信息的冗余。
王杰雄说。
举个例子吧:比如你跟朋友打电话约在地铁站B口见面,电话里对方听不清你说的到底是B还是D,你也许会说:“我们在B口见面,AB的B,二B,不是四D。”
你看,你很可能不认识香农,但你自动采用了信息冗余策略,用了四种方式表达“B”,对方一般就不会理解错误了。
王杰雄他们正是用了同理的操作,每一道题都用不同的颗粒度切分,换几种维度表达。这种表达虽然啰里八嗦,但是却大大提高了匹配的精准度,算是曲线救国了。
不过这还不算完,更多的问题仍然摆在面前。
这第三个麻匪就是“公式归一化”。
上过中学的浅友都知道,各种题目到了中学就不再“单纯”了,比如这货:Cu₂(OH)₂CO₃,碱式碳酸铜。再比如下面这道题:
你发现没,题目里有各种角标、特殊符号,是你日常打字根本不知道怎么打出来的。
你都不知道怎么打,程序当然也不知道怎么打。。。不过,幸好科学家和代码大神们已经总结好了一些规则,用一串直线排列的代码就能表述出这些乱七八糟的公式。
可问题来了,对于同一种公式的表述规则有很多种,并不统一——就像同一部片儿,有 avi,有 rmvb,有 mp4。。。两个人见面,一个人说“Hello”,另一个人说“弄啥嘞”,那不可能匹配成功。
于是团队必须把题库里的各种公式的每一种表述都找出来,然后转换成统一格式,这就是公式归一化。
除了上面说的三个麻匪,还有图片传输压缩、算法和功耗的平衡、题库本身丰富度等等,“麻匪”漫山遍野,一眼望不到头。。。。
王杰雄发现,这不是“让子弹飞”,这根本就是“乱枪打死”。这一大堆事要是等一个人搞完,那恐怕人类都登陆火星了。他赶紧吹响“集结号”——跟领导申请把其他技术同事一个个拉上船,并肩作战。
没顾得上开神马“誓师大会”,技术攻坚组就这样紧急成立了。
埋头苦干一个月,这套搜索算法终于做出了雏形。夏雅曈他们赶紧拿来一些测试题目,结果是:这套算法的识别率只有友商的一半儿左右。。。
这个结果,如翔一般。
盘了盘,王杰雄发现根本原因还是整个搜索的链路太长——用户拍照的清晰程度、用户框选题目的精细度、文字识别的准确程度、文件传输中的压缩比例、题目搜索的比对算法,每一步都有一定的信息损耗。
这种长链路的问题就如同你玩过的那种传话游戏,一个同学传给另一个同学,他再把听到的内容传给下一个同学。传到最后,往往已经把“前门楼子”传成了“肩膀头子”。。。
然而,市场的竞争不等人,疫情笼罩下的2020年,你懂的,各大拍照搜题软件都在拼命激战抢夺用户。
果然,团队接到了来自领导层的惊天命令:自研搜题模块要在国庆节上线!this is an order,不容争辩。
王杰雄他们看看表,现在已经7月多了,过去论天过,现在就得论秒了。。。
(三)二营长,拿我的“核武器”来
夸克学习技术团队把吃奶的劲儿都使出来了,疯狂地优化这个“传话游戏”。
那段时间,王杰雄他们做梦都在想优化策略。但是,经常出现的结果是:一个优化策略上了之后,一半的题目解题率升高,另外一半儿的解题率反而下降,就像在游泳池里玩跷跷板,一个人浮出水面喘口气,对面那个人就被淹在水下冒泡了。。。
到后来,为了该用哪些优化策略,这群技术宅越讨论越急眼,眼看就要从说服变成睡服。他们干脆决定,兵分好几个小组,各自研究心仪的优化策略,最后再把这些技术叠加起来。
技术宅有技术宅的计划,世界另有计划:如此舍命狂奔,尽管和友商的解题率差距在缩小,但始终还是追不上。
夸克怎么说也是一个有牌面儿的搜索引擎,如果国庆节就这个亚子直接发布出去,那简直是所有人都不能忍受的公开处刑。
祸不单行。
进入暑期,夸克搜题的活跃度开始肉眼可见地下降。原因很简单——同学们放假了。即使是学霸,也不会凡尔赛到放假的时候也天天搜题吧。。。
那么,这些同学还会在9月份开学的时候如约回来吗?万一不回来,我们做了这么久的新搜题引擎给谁用呢?大家心里紧张得如同初恋的少男。
从8月最后几天开始,所有人都捂着眼睛,从指缝里看夸克后台搜题功能的用户人数有没有增长,就跟老韭菜看着自己的股票持仓一样:哀其不幸,怒其不争。
他们悲伤地发现,用户数并没有回到上学期期末的时候。。。
然而,就在他们确认自己要凉了的时候,9月5号左右,搜题的用户突然开始暴涨,势如破竹,很快就挣脱了之前的最高点。
又惊又喜的夏雅曈、王杰雄他们突然意识到,原来因为疫情的原因,全国的学校是错峰开学的,学霸们虽迟但到,直到9月上旬才马力全开。
诚如夸克学习的搜索框所言:我爱学习,学习使我快乐。
这下有两件事是板上钉钉了:第一,国庆节新引擎铁定是要发布了;第二,哪怕按国庆七天乐最后一天算,此时距离发布也只有一个月了。
怎么用一个月的时间把搜题质量提升到世界级水平?
技术团队对视一眼,貌似只有使用最后一个“核武器”了!
你还记得我们之前留了一个伏笔么?最开始,技术团队曾经绕过了第一个“麻匪”,文字识别系统(OCR)。
其实大伙儿都知道,文字识别系统在整个搜题链路里是最重要的环节之一,但是,因为技术非常复杂,恐怕不是一两个月就能做出来的,所以夸克技术团队没敢碰,一直在用集团提供的现成文字识别系统。
事到如今,无路可退,老司机只有背水一战。
没错,他们的“核武器”就是——自己造一个完美契合搜题场景的文字识别系统。
智能搜索业务部负责人吴嘉盘点了一下,还真有一群人适合做这套系统,这就是过去有视频内容文字识别经验的黄锐华团队。
如果是一般人,接到这样的任务也许下一秒就准备辞职信了。但黄锐华不是一般人,非但面不改色,反而有点小兴奋呢。
说起来,黄锐华也是阿里巴巴最早做搜索的那拨大神,从当年的阿里巴巴商品搜索,到后来的UC浏览器全网搜索,都有他团队的身影。
十年搜索经验填过的坑无数,不仅让他们团队积累了堪比《九阴真经》的经验,还在兜里攒下了一堆“暗器”:
我们团队有一个“工具箱”,里面全都是这么多年积累的自动化工具,有深度学习的,有模型优化的等等。普通团队搭一个新系统像盖瓦房,需要一砖一瓦从头来过;有了这些工具,我们搭一个系统就像拼插乐高积木,时间会大大缩短。
黄锐华露出老师傅的蜜汁微笑。
搜题所需的文字识别系统需要有两个功能:“印刷体文字识别”和“手写体文字识别”。一个月的时间把两个功能都做出来是来不及了,他们商量了一下,先只做相对容易也用处更广的“印刷体文字识别”。
接下来又到了硬核科普的时间段。
做一个文字识别系统最最核心的工作就是“训练”。
训练,简单说就是让人工智能看大量的数据。这个数据不是普通的数据,而是“标注数据”。
啥是标注数据?一道含有题目的照片拿过来,标注师不仅要把里面题目的精确位置框出来,还把对应的正确文字誊写下来,这就是一个“标注数据”。无数个标注数据塞进训练框架的炼钢炉,就能炼出来一个“人工智能文字识别系统”。
这就是一个标注数据
当时,啪的一下,很快啊,老司机们搞来了大量的标注数据。然后马不停蹄地进行针对“搜题场景”调优和测试。
黄锐华记得清清楚楚,那一个月他们过得可是紧张刺激干净卫生,上午开会讨论方案,晚饭前代码就得写好,夜里就要进行测试,一天一迭代,一夜一升级。
终于,到了9月下旬,文字识别系统终于出炉。是骡子是马拉出来溜溜,黄锐华他们找来市面上所有能买到的商用文字识别系统,焚香击鼓,来了一场“乱斗大比武”。
结果证明,在印刷版习题的识别率上,自己刚研发的这个识别系统最能打。文字识别和公式识别都比别人高几个百分点。
他一拍大腿,这事儿要成。
像运动会接力棒一样,文字识别系统第一时间传给算法团队。由于临阵切换了文字识别系统这个“发动机”,导致王杰雄他们的搜索算法也要重新训练,重新适配。
此时留给他们的时间,只剩最后几天了。
王杰雄缓了口气,以大将之风安慰团队:“莫慌,只要胆大心细,时间应该还来得及。”
然而,半小时后,团队同学就来报告:哥,跟你说个事儿,咱们手里的计算力资源好像不够了。。。
王杰雄给跪了。
由于短时间内要计算炒鸡大量的数据,团队日常储备的云计算资源直接被拉满,目测要是仅靠这些资源,等这些计算搞定,2021年的第一场雪都来了。。。
你可能会问:“等等,团队难道用的不是阿里云么?阿里云“吹牛”的时候我可是听过的,不是说伸缩扩容一分钟就搞定么?”
没错,然而问题并不出在阿里云上,而是出在真实世界的规则中——团队扩容,需要预算,而这笔预算显然是计划外的,要走特殊流程,一半天儿肯定是批不下来。。。
危急时刻,奇景出现:从技术大牛到产品经理,从一线码农到团队领导,大家纷纷联系相熟的邻居团队,从他们那里“借”资源。
对方有五台机器,要!对方有一台机器,也要!对方有一台机器但是在另外的机房,没问题,我们去人肉搬过来!对方开玩笑说你得请我吃饭,他们说请!对方说吃龙虾,他们说吃!
就这样“毫无底线”,不知道许诺出去多少顿饭,两天之内,计算资源像蚂蚁搬家一样一点点堆垒起来,超越了平时的五倍还多。烧脑的计算像F1赛车一样极速狂飙,在赛博世界表演了一场暴裂无声的白日焰火。
这段危急时刻,正赶上横跨周末,大家也都顾不上休息了,每天在办公室连轴转。当时是三伏天,而大厦周末是不给中央空调的,领导们就给大家找来了超大功率的电风扇,但桑拿天风扇也是杯水车薪,屋里仍然跟蒸笼一样。没人顾得上抱怨,汗水迷了眼就用身上的T恤擦,女同事不在就光膀子。
国庆节前一天,所有必要的计算终于跑完一遍,新算法百米冲刺上线,焕然一新的搜题引擎马不停蹄地开始全链路测试。
标准测试数据下,夸克搜题的引擎总算、究竟、到底、终于跑出了行业顶尖的解题率。
王杰雄他们看着这个结果,激动得差点欲语泪先流。
这个接力棒又火速传到产品团队手上,由他们为亿万用户做最终发布。按照规定,一般情况下假期是不能升级 App 的,但是夏雅曈他们早已提前打好了报告,拿到了金牌令箭,就等着假期推送升级。
就这样,先是团队内部人员接收了 App 升级包,第二天对几千用户随机推送,然后是几万人,然后是几十万、几百万。终于赶在十一期间,把所有用户的夸克 App 都升级完毕。
国庆收假,后台的用户数据开始满载狂升。此时,王杰雄盯着屏幕反而异常平静,他知道,眼前的一切绝非只是跳跃的数字,而是新搜题引擎像神龙一样,在响应着无数学生、老师和家长的召唤。
满屏都写着“牛X”二字。
夸克的一万个功能里,有一个是“手持弹幕”。
(四)要说“真香”不容易
夸克搜题的用户数一浪高过一浪,每过一个周末,后浪就把前浪拍在沙滩上。
然鹅没想到,一浪高过一浪的还有后台用户的吐槽。。。
毕竟人红是非多,有的用户反映有题搜不到,有的用户反映答案不详细,有的用户反映解题不够快。其实大多问题团队早就知道了,恨不得顺着网线冲过去跟用户说:“在弄了在弄了!!”。
但有一类吐槽,却是他们没想到的——搜题速度有点慢。。。
技术团队的直觉告诉自己,“速度”两个字里恐怕有大文章。
仔细测试之后他们发现,正常的拍一道题过程中,用户会有几秒钟的“被动等待时间”。啥叫被动等待呢?就是这个时候用户什么也不能做,就是干等着。
几秒钟按说也不算事儿,但是同学们在拍题的时候,经常是连续拍十几道。这些被动等待时间累积起来,就变得特别不能忍。
况且很多学生党用的手机都是中端机、青春版,性能没有那么极致,这一下又会拉长等待时间。
意识到问题的严重性,团队凑在一起开了个“共识会”,一致同意开启另一场战役——“闪电拍题”。
之前说过,用户搜题的过程,背后其实是一连串链路,粗略来说有这么几步:打开摄像头、摄像头自动对焦、点击拍摄按钮、手动框选题目、点击提交、图片生成、图片上传服务器、服务器进行文字识别、搜索引擎进行比对、找到目标结果、结果回传到手机、结果展示在屏幕上。
这么多环节,只有从每个环节都压榨回来一点时间,才能让整体搜题等待时间大幅减少。
于是团队变身人肉榨汁机,从三个方向开始压榨。
第一,压榨照相机模块。
为了方便开发迭代,之前的相机模块采用的是轻量化的“web框架”,这次为了速度,前端团队一狠心另起炉灶,换成了“客户端架构”,虽然维护更难,但速度如飞。
第二,压榨传输链路。
图片从手机传输到夸克的服务器,要经过好几个系统“接力”处理,路由器、运营商、负载均衡,进入服务器之后,也要像串糖葫芦一样经过几道系统,这些系统有的跑在杭州机房,有的跑在张北机房,有的跑在广州机房,相当于数据要在神州大地上来回奔袭好几个来回。
虽然是光速来回,但毕竟咱们国家大得离谱,路上还是会消耗很多时间。
最终,技术团队优化了调度方式,在每个机房都安排了一整套处理系统,让用户可以"就近接入",比如广州的用户就接入距离广州最近的深圳机房,全套处理完直接把结果返回手机。就像现在人民群众去办事儿,“最多跑一趟”。
第三,压榨算法系统。
之前为了保证搜题准确率,王杰雄他们为搜索引擎增加了很多“冗余”,这下为了节省时间,又不得不拆掉一些。
估计你也猜到了,压榨算法系统肯定会带来一些副作用,那就是识别率很有可能下降。
这个时候,黄锐华的文字识别团队又*了出来。他们也憋了一个大招:
重写一套数据标注系统,让外包团队为他们重新标注一套比过去精准无数倍的题库数据。他们要用这套新的标注数据,训练出史上最准确的文字识别系统。
这套数据的标注要精准到什么程度呢?所有题目的框选都精确到了近乎像素级的精度。而为了达到这个目标,全部标注员都提前做了严格的培训,还专门设立了检查员的岗位,负责二次检查数据标注的精度。最终数据拿回来,夸克的技术同学还要进行复查,绝不放过一个错误。
我们认准了一个道理:数据样本的精度,决定了你识别能力的上限。所以我们就用这种笨办法!
黄锐华一脸技术人的执拗。
这次数据标注,不仅标注了印刷文字,还标注了之前没时间解决的手写文字。而且手写文字还包括了小学生、初中生、高中生的不同字体,也包括了手写数学公式、手绘图、手写英语等等。
这一套标注下来,用了整整两个月时间,所花的金钱成本远超你的想象。
这个识别系统的效果怎么样呢?用黄锐华的话说就是:“拿印刷体的识别来说,已经达到遥遥领先业界的效果,基本不会错了。”
“基本不会错?”我问。
“基本不会错。”他说。
这种斩钉截铁的话在严谨的技术老师傅嘴里说出来,还是挺震撼的。
就这样,所有人又拼了两个多月,100毫秒100毫秒地抠,先是把搜题中用户等待的时间减少了30%,后来又减少到了最初的50%,这两天他们还在拼命准备再减下去10%。
夏雅曈说,她手机里已经装上了夸克最新版的测试版,搜题速度杠杠的。我说我不信,于是她给我现场展示了一下新老版本的速度对比。
我做成了 gif 你看看。(左边是旧版,右边是新版)
夸克的第二代搜题引擎大概会在2021年1月底上线。忙了一冬天的黑科技,就要在新版本的夸克 App 上闪亮登场,团队的男女老少们正在期待地搓手手。
各位铁子们要是有兴趣,正好可以更新一下最新的“脱胎换骨版”夸克,体验一下B站用户心中永远滴神到底香还是不香。
(如果不香你们就去拍砖,不过看在他们这么努力的份儿上,轻点拍就是了。)
(写文章的空档,我发现了“手抄报”功能,顺便学着画了一个。首先画出狮子,然后加一些细节。。。)
(五)一个更香的世界什么样?
2020年9月,王杰雄最忙的时候,他的女儿恰好上小学。
那段时间,王杰雄脚不沾地,顾不上家里,都是夫人帮着女儿辅导功课。不过王杰雄倒是很骄傲,毕竟夫人帮女儿辅导作业时,用的都是自己亲手打造的御用特供指定版夸克搜题引擎。
女儿一天到晚被爹安利,如今遇到不会的题,都会抢在王杰雄前面轻描淡写地说:“用夸克搜一下呗。”一起逛街遇到夸克的广告——那个像马桶圈儿的 LOGO——女儿也会说:“又是你们的广告!”
其实在团队里,还有不少像王杰雄一样的孩子家长,从小学到初中高中一应俱全,他们都是夸克搜题的核心用户——在日常搜题的时候,他们遇到非常实际的问题,拿回来反馈给产品团队,新功能很快就能加入全家桶。
比如错题本功能:同学可以把错题整理起来,系统智能识别里面的知识点,然后自动给出考察类似知识点的其他题目。
再比如错题打印功能:低年级的孩子父母不敢让孩子长时间看手机或者平板电脑,于是希望能把错题打印到纸上让孩子去做。
再比如口算批改功能:对于一些简单的加减法算术题,家长需要每天帮小朋友检查作业,有点枯燥。用这个功能一拍,所有答案是对是错就一目了然了——疲惫一天的老父亲老母亲能多有几分钟放空的时间。
除了搜题功能本身,王杰雄他们还发现,作为阿里巴巴家的“富二代”,夸克的人工智能能力是碾压别人的。
有了强大的人工智能技术储备,其实未来还可以试着做出很多更科幻的功能,例如给定一个题目可以帮你写作文,给出一个上句帮你填写下句——这些题目本身都没有对应标准答案,但是搜题引擎也可以试着凭空做题,空手接白刃。
我试了一下“AI 续写”,惊为天人。
夏雅曈的妈妈其实就是一位中学老师,在湖南老家教了半辈子课。
最开始夏雅曈定义搜题产品的时候,几乎给妈妈一天打一个电话,询问她给同学们出的题都是哪来的,甚至还要来了教研组老师的电话,还有校长的电话,甚至还跟妈妈经常买参考书的书店老板煲了几个小时电话粥。
夏雅曈的敬业程度爆表,以至于当别人父母都劝孩子“多打电话回家”的时候,她妈妈反而劝女儿“少打点电话”。。。
“*烦死你了吧?”我问。
“毕竟亲生的,没办法。”她笑。
“诶,要是以后同学们遇到不会的题都上网查了,没人问老师了,*妈会不会失落啊?”我突发奇想,问夏雅曈。
我小的时候,每次学生写了好的作文,她都会比学生自己还开心。从那时我就知道了,老师从来只会因为学生的进步而骄傲自豪,不会因为自己而失落。这也是我最佩服妈妈的地方。
她温暖地一笑。
临别之前,王杰雄还给我讲了一件小事儿。
最近,他帮女儿报了好多线下补习班,花钱花到肉疼。在交钱的时候,他若有所思:“我生活在北京这样的一线城市,有财力,也有智力跟进孩子的辅导。但是在三四线城市,甚至是那么多乡村,那些孩子是不是永远没办法接触到这些优质的教育资源呢?”
想到这里,他好像忽然站在了站台对侧,越过呼啸的列车,审视自己正在做的事情。
如果教育停留在物理世界,那么毫无疑问,最棒的教育资源一定只会留给精英的“后浪”们。可是,一旦教育来到线上,它就会展现出巨大的可能性——哪怕一个孩子生在偏僻的村庄里,只要有一部手机,只要他渴望学习,就可以以非常低的成本享受人工智能为 Ta 准备的教育资源,而且是定制化的教育资源。
未来世界的孩子,也许能享受到我们这代人从未有过,甚至没敢想过的教育模式。
王杰雄的眼睛闪闪放光。
告别这群人,我又冲进冬天的城市。北风漫卷,山河无恙。按照剧本,此时我应该路遇几个少年。但这个时间他们显然应该正在温暖的教室里听课,有的眉头紧锁,有的迷惘张望。
“我看着你们,满怀羡慕。”我又想起《后浪》里这句曾引发了口诛笔伐的轻飘飘的台词。
于是我猜,年轻人不能被收买,年轻人也从未被收买。
一个认真面对这个世界的 App,从来不应只是生活优渥的后浪们口中戏谑的“真香”。最终有权评价它的,应该是严肃的,庄重的,渴望成为更好自己的每一张年轻的面孔。
P.S. 鉴于 Safari 那期节目里满屏的夸克,苏星河后来又专门做了一期夸克的评测,你可以看看。
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved