回到自己的工位,宋宁脸上没什么表情,只是敲键盘的声音稍微大了些,翻出刚才那封邮件,她再次进入数据库,直接线上改了那17条错误数据。
数据质量评估一般都根据热度来抽样,高热度才会被抽取到,83%准确率的数据提供给PNC(Perception&Control 感知&控制),底层数据都烂成这样了,决策层不出问题才怪。
宋宁面无表情地盯着屏幕一条一条地改坐标,刘超刚反应过来似的,才抱着电脑追出来,他站在宋宁跟前,铁青着脸看她,看样子还等她主动认错。
可宋宁是谁,是最沉得住气的土象星人,跟她死磕绝对讨不到一点便宜。跟完全没看见眼前站了个人似的,她喝了一口在边上晾了半天的咖啡,气定神闲地干着活儿。
“你什么意思?”刘超没憋住,先问了一句。
难得的,宋宁拿眼皮儿夹了他一下,一边敲着键盘一边说道:“我刚才看了下,全库上亿条Point,有热度的大概占8000万,根据数据评估结果,错误数据大概占17%左右,也就是1360万,你准备一下人工处理团队,至少100人,短时间内什么都不要做了,全都给我校正线上数据。”
刘超原本想教训她的话全都被堵了回去,可这口气还是有点咽不下,从前倒是小看她了,本以为是个连陈圆圆都斗不过的软柿子,没想到她不是斗不过,是压根儿没把陈圆圆放眼里。
那个数据质量评估结果很大程度上能够代表整个Point的OKR完成情况,83%的结果距离99.9%的目标也确实是远了些,可当下他也没什么好办法,说实在的,他也很棘手。
“你怎么保证抽出来的1350万数据都是错的?”他开始尝试给宋宁的方案挑错。
抽数据谁不会啊,问题是库里数据这么多,也得按规则抽啊,这规则谁定?她宋宁吗?她坐在北京的办公室就能知道上海哪个Point错了吗?
宋宁在键盘上一直敲敲打打的手一停,抬头去看他,表情像是听到了什么笑话:“我保证不了,模型的准召率永远不可能是100%,这是常识。”
怪不得这人四十来岁还只能勉强混个高级产品经理,连个专家都算不上,这年纪分不出事情的优先级,放着收益最高的事情不做,整天在公司聊□□,这数据质量83%还真是挺符合预期。
“那你岂不是在浪费公司资源?!”刘超声音挺大的,在宋宁的工位前无能狂怒。
宋宁有点烦,以这人的级别,以前都没资格跟她说话,现在她好言好语地讲道理给他,他倒还没完没了上了,可眼见周围的的同事都停下了手里的工作,瞧热闹似的往这边看,她也有点无奈,站起身来,决定还是试着和他再沟通沟通:
“做过数据挖掘吗?”
“挖掘什么?和错误数据有什么关系?”刘超把自己的笔记本往边上一摔,咣当一声,往这儿看的人更多了。
宋宁突然一笑,她果然猜得没错,海开数据来源就是有问题。
刘超被她笑得一懵,不知她什么意思。
“没事儿,不懂就不懂吧,你把权限给我开了就行,下周一我会把挖掘出来的错误数据邮件给外包团队。”
宋宁说完就坐了下来,懒得再多废话一句。
刘超就又尬在原地,被他摔在一边的笔记本他捡也不是,不捡也不是,刚想再骂她几句,陈圆圆倒是挺识趣儿的过来了,假装问事情,倒给他找了个台阶。
终于清静了,宋宁凝神看着屏幕,开始写自己最擅长的数据挖掘模型。
这模型对她来说有点难度,主要错误特征太不明显了,在此基础上既要保证准确率,又要保证召回率,而这两个数据往往是互斥关系,此消彼长,她需要在并不熟悉的领域找到最优解。
她最终也没问数据评估组的同事评估标准,反正物理世界就摆在眼前,数据准不准的一看就知道,大不了还可以看别的地图。
宋宁自己又从不同城市抽了百十来条数据,挑出错的十几条,结果和评估组给出的一样,准确率也是80%上下。
根据手头这些badcase,以她的视角总结特征,先模拟出最简单的模型雏形,再扩大试验数据范围,逐渐迭代模型。
差不多忙到晚上十一点,她伸了个懒腰,又揉了揉眼睛,才合上电脑,手机一震,是一个好友申请,微信昵称叫超哥。
宋宁想了想,还是点了通过申请按钮,刚加上好友,刘超也没废话,直接把她拽进一个微信讨论组。
这讨论组名字不知道让谁改成了“地图case一级响应”,她点开讨论组成员数了数,好几十人,除了刘超她谁也不认识。
“@宋,刚才Allen报了个case,你看看怎么回事。”
刘超@完她,又丢了个聊天记录过来,宋宁嚼着楼下便利店买的饭团,垂着眼睛随便点开看了看。
这聊天记录一共就三个截图,看样子是买车的用户用了公司自带的导航,终点要去一个叫三娘火锅的地方,导航给人家绕路了不说,终点还导错了。
宋宁放下啃了一半的饭团,重新打开电脑开始查case,没过五分钟就弄清楚了,其实挺简单一case.
这个三娘火锅应该是搬家了,Point库里数据没更新,给人导原来的位置去了,原来的位置现在变成了一个烤肉店,也就是说,库里两条相关数据都是错的。
三娘火锅没更新,烤肉店数据为空,Point真是好样的。
宋宁有点累,倒不是这个工作强度有多大,只是她没想到查case这种脏活儿累活儿也得她亲力亲为。
快12点了,办公区除了保安大哥也没什么人,椅子不太舒服,她趴在桌子上,一边啃凉透了的饭团一边单手编辑信息:
“case中涉及的两条数据已人工干预上线。经评估,Point数据库目前存在约17%左右的错误数据,预计下个月清洗完毕,这期间的Point相关数据问题全部为已知问题,请各位知悉。”
宋宁也没管群里都有谁,一句“全部为已知问题”对付完,穿上羽绒服就下了地库。
等电梯的时候又收到一条好友申请,估计是哪个不开眼的同事大晚上要给她找不痛快,本来没想搭理的,想到那封判断她“毫无横向协同能力”的邮件,她还是耐着性子点了通过。
那人挺快先发了一条新消息过来:“不生气了?”
一阵冷风吹过地库,宋宁打了个寒颤,裹紧了身上的羽绒服。
这人有病吧?
她皱着眉头点进这人的头像,微信昵称叫顾云舟,没啥印象,Point好像没有姓顾的同事吧?
宋宁把手机揣回兜儿里,走向自己的车位,突然她像想起来什么似的,从兜儿里拿出手机,对比了一下刚才讨论组里那个叫Allen的头像,然后又打了个寒颤。
她动作缓慢地回了个“?”过去。
那边回消息很快,一点儿也不像个霸道总裁:“听说你才上了两天班,就开始霸凌同事了?”
宋宁忍住内心深处也想霸凌他的欲望,好脾气地为自己争取利益:“可以催一催他们,数据库权限到现在还没开。”
她有能力改是一回事,名不正言不顺则是另一回事,如果有权限当然更方便。
“所以你怎么改的线上数据?”他指的是用户报的错误火锅店地址。
这就说来话长了,宋宁总不好直接说“我强势入侵”你们数据库,于是选择什么都不回复,直接开车回家。
打开家门的时候,小猫已经等在门口了,见到她先伸长了手手,在宋宁的裤腿上猛抓几下,便把她带到了黄色的小碗旁边。
三花小猫有两只碗,红色的放猫粮,黄色的装零食,此举暗示得非常明显。
宋宁绷了一天的脸上终于见了点笑意,她克制住摸她脑袋的欲望,先去洗过了手,才放了点冻干在黄色小碗里,终于吃到零食的小猫把脑袋深深扎在碗里,发出满足的咕噜声。
小猫吃东西很快,碗里空了也不贪心,吃够了就坐在一旁舔爪子,宋宁像个慈祥的老母亲,坐在干净的地板上看小猫用干净的小爪子在脸上蹭来蹭去,心也软了又软。
时间已经过了一点,洗过澡后的宋宁感觉清醒了一些,坐在书房连上公司的□□开始继续敲着代码。
这么一条一条地线上改数据总也不是办法,物理世界天天变化,今儿这个便利店改了个名字,名儿那个小区大门关闭,库里还有至少一千多万的数据是错的,这模型晚上线一天,公司损失就大一天,她是一点儿也等不得。
被她放在沙发上的手机嗡嗡震动了一下,就恢复了平静,顾云舟深夜发来的那条“权限开好了”的信息被看见的时候,已经是第二天的早上了。
数据质量评估一般都根据热度来抽样,高热度才会被抽取到,83%准确率的数据提供给PNC(Perception&Control 感知&控制),底层数据都烂成这样了,决策层不出问题才怪。
宋宁面无表情地盯着屏幕一条一条地改坐标,刘超刚反应过来似的,才抱着电脑追出来,他站在宋宁跟前,铁青着脸看她,看样子还等她主动认错。
可宋宁是谁,是最沉得住气的土象星人,跟她死磕绝对讨不到一点便宜。跟完全没看见眼前站了个人似的,她喝了一口在边上晾了半天的咖啡,气定神闲地干着活儿。
“你什么意思?”刘超没憋住,先问了一句。
难得的,宋宁拿眼皮儿夹了他一下,一边敲着键盘一边说道:“我刚才看了下,全库上亿条Point,有热度的大概占8000万,根据数据评估结果,错误数据大概占17%左右,也就是1360万,你准备一下人工处理团队,至少100人,短时间内什么都不要做了,全都给我校正线上数据。”
刘超原本想教训她的话全都被堵了回去,可这口气还是有点咽不下,从前倒是小看她了,本以为是个连陈圆圆都斗不过的软柿子,没想到她不是斗不过,是压根儿没把陈圆圆放眼里。
那个数据质量评估结果很大程度上能够代表整个Point的OKR完成情况,83%的结果距离99.9%的目标也确实是远了些,可当下他也没什么好办法,说实在的,他也很棘手。
“你怎么保证抽出来的1350万数据都是错的?”他开始尝试给宋宁的方案挑错。
抽数据谁不会啊,问题是库里数据这么多,也得按规则抽啊,这规则谁定?她宋宁吗?她坐在北京的办公室就能知道上海哪个Point错了吗?
宋宁在键盘上一直敲敲打打的手一停,抬头去看他,表情像是听到了什么笑话:“我保证不了,模型的准召率永远不可能是100%,这是常识。”
怪不得这人四十来岁还只能勉强混个高级产品经理,连个专家都算不上,这年纪分不出事情的优先级,放着收益最高的事情不做,整天在公司聊□□,这数据质量83%还真是挺符合预期。
“那你岂不是在浪费公司资源?!”刘超声音挺大的,在宋宁的工位前无能狂怒。
宋宁有点烦,以这人的级别,以前都没资格跟她说话,现在她好言好语地讲道理给他,他倒还没完没了上了,可眼见周围的的同事都停下了手里的工作,瞧热闹似的往这边看,她也有点无奈,站起身来,决定还是试着和他再沟通沟通:
“做过数据挖掘吗?”
“挖掘什么?和错误数据有什么关系?”刘超把自己的笔记本往边上一摔,咣当一声,往这儿看的人更多了。
宋宁突然一笑,她果然猜得没错,海开数据来源就是有问题。
刘超被她笑得一懵,不知她什么意思。
“没事儿,不懂就不懂吧,你把权限给我开了就行,下周一我会把挖掘出来的错误数据邮件给外包团队。”
宋宁说完就坐了下来,懒得再多废话一句。
刘超就又尬在原地,被他摔在一边的笔记本他捡也不是,不捡也不是,刚想再骂她几句,陈圆圆倒是挺识趣儿的过来了,假装问事情,倒给他找了个台阶。
终于清静了,宋宁凝神看着屏幕,开始写自己最擅长的数据挖掘模型。
这模型对她来说有点难度,主要错误特征太不明显了,在此基础上既要保证准确率,又要保证召回率,而这两个数据往往是互斥关系,此消彼长,她需要在并不熟悉的领域找到最优解。
她最终也没问数据评估组的同事评估标准,反正物理世界就摆在眼前,数据准不准的一看就知道,大不了还可以看别的地图。
宋宁自己又从不同城市抽了百十来条数据,挑出错的十几条,结果和评估组给出的一样,准确率也是80%上下。
根据手头这些badcase,以她的视角总结特征,先模拟出最简单的模型雏形,再扩大试验数据范围,逐渐迭代模型。
差不多忙到晚上十一点,她伸了个懒腰,又揉了揉眼睛,才合上电脑,手机一震,是一个好友申请,微信昵称叫超哥。
宋宁想了想,还是点了通过申请按钮,刚加上好友,刘超也没废话,直接把她拽进一个微信讨论组。
这讨论组名字不知道让谁改成了“地图case一级响应”,她点开讨论组成员数了数,好几十人,除了刘超她谁也不认识。
“@宋,刚才Allen报了个case,你看看怎么回事。”
刘超@完她,又丢了个聊天记录过来,宋宁嚼着楼下便利店买的饭团,垂着眼睛随便点开看了看。
这聊天记录一共就三个截图,看样子是买车的用户用了公司自带的导航,终点要去一个叫三娘火锅的地方,导航给人家绕路了不说,终点还导错了。
宋宁放下啃了一半的饭团,重新打开电脑开始查case,没过五分钟就弄清楚了,其实挺简单一case.
这个三娘火锅应该是搬家了,Point库里数据没更新,给人导原来的位置去了,原来的位置现在变成了一个烤肉店,也就是说,库里两条相关数据都是错的。
三娘火锅没更新,烤肉店数据为空,Point真是好样的。
宋宁有点累,倒不是这个工作强度有多大,只是她没想到查case这种脏活儿累活儿也得她亲力亲为。
快12点了,办公区除了保安大哥也没什么人,椅子不太舒服,她趴在桌子上,一边啃凉透了的饭团一边单手编辑信息:
“case中涉及的两条数据已人工干预上线。经评估,Point数据库目前存在约17%左右的错误数据,预计下个月清洗完毕,这期间的Point相关数据问题全部为已知问题,请各位知悉。”
宋宁也没管群里都有谁,一句“全部为已知问题”对付完,穿上羽绒服就下了地库。
等电梯的时候又收到一条好友申请,估计是哪个不开眼的同事大晚上要给她找不痛快,本来没想搭理的,想到那封判断她“毫无横向协同能力”的邮件,她还是耐着性子点了通过。
那人挺快先发了一条新消息过来:“不生气了?”
一阵冷风吹过地库,宋宁打了个寒颤,裹紧了身上的羽绒服。
这人有病吧?
她皱着眉头点进这人的头像,微信昵称叫顾云舟,没啥印象,Point好像没有姓顾的同事吧?
宋宁把手机揣回兜儿里,走向自己的车位,突然她像想起来什么似的,从兜儿里拿出手机,对比了一下刚才讨论组里那个叫Allen的头像,然后又打了个寒颤。
她动作缓慢地回了个“?”过去。
那边回消息很快,一点儿也不像个霸道总裁:“听说你才上了两天班,就开始霸凌同事了?”
宋宁忍住内心深处也想霸凌他的欲望,好脾气地为自己争取利益:“可以催一催他们,数据库权限到现在还没开。”
她有能力改是一回事,名不正言不顺则是另一回事,如果有权限当然更方便。
“所以你怎么改的线上数据?”他指的是用户报的错误火锅店地址。
这就说来话长了,宋宁总不好直接说“我强势入侵”你们数据库,于是选择什么都不回复,直接开车回家。
打开家门的时候,小猫已经等在门口了,见到她先伸长了手手,在宋宁的裤腿上猛抓几下,便把她带到了黄色的小碗旁边。
三花小猫有两只碗,红色的放猫粮,黄色的装零食,此举暗示得非常明显。
宋宁绷了一天的脸上终于见了点笑意,她克制住摸她脑袋的欲望,先去洗过了手,才放了点冻干在黄色小碗里,终于吃到零食的小猫把脑袋深深扎在碗里,发出满足的咕噜声。
小猫吃东西很快,碗里空了也不贪心,吃够了就坐在一旁舔爪子,宋宁像个慈祥的老母亲,坐在干净的地板上看小猫用干净的小爪子在脸上蹭来蹭去,心也软了又软。
时间已经过了一点,洗过澡后的宋宁感觉清醒了一些,坐在书房连上公司的□□开始继续敲着代码。
这么一条一条地线上改数据总也不是办法,物理世界天天变化,今儿这个便利店改了个名字,名儿那个小区大门关闭,库里还有至少一千多万的数据是错的,这模型晚上线一天,公司损失就大一天,她是一点儿也等不得。
被她放在沙发上的手机嗡嗡震动了一下,就恢复了平静,顾云舟深夜发来的那条“权限开好了”的信息被看见的时候,已经是第二天的早上了。