接下来的日子,齐浩初经常在公司和数据局两边跑,天气更加炎热,变得更累了。“面纱”的事情也变成了日常工作,和以前也没什么区别,只是处理的数据更敏感了而已。数据里面其实也基本没有姓名、身份证号码,有也是处于加密状态。人员信息是通过虚拟id关联起来的,所以最初那点紧张感也早就荡然无存了。看来这套系统还是经过了非常完善设计的,之前领导们表情严肃,说得那么吓人,应该只是怕被普通人知道后,听不进官方的解释,到时候闹得不好看。
倒是有件事情让齐浩初比较开心,因为项目管理部有一个新的活,是公安网警的一个智能舆情分类系统,数据采集由其他方式获取到,希望根据文章内容自动分类。自动分类这个事情,需要一点“智能”参与。这个正好是齐浩初这边的事情,虽然不如吕天和那么厉害,但是自己有过不少AI模型训练的开发经验。只要有合适的样本数据,加上bert-base-chinese这个自然语言模型,可以像人一样理解文章内容,就能高效地构建出一个高准确率的文本分类模型。之前参加了一个“华山论剑创新大赛”,对新闻文章进行智能分类,还得了全国二等奖。数据部门只要做好这个分类接口即可,其他前后端的开发由研发部门去做。
齐浩初正想着接下来要怎么找赵语丽搭话,这不正好就有正当理由了。8月14日(周三),齐浩初在聊天工具里和赵语丽说:“你们部门那个智能分类系统,是你在对接吗?”
“是我这边对接的,这个事情你也参与了?”
“嗯,最核心的智能分类是我这边做的,我训练一个AI模型,做成接口,然后研发部做前后端页面来对接。不过我需要你们提供些数据,就是你们过往人工分类好的那些文章数据。”
“好的啊,我整理下,你什么时候要?”
“你什么时候准备好就行,我随时都在。”还附带了一个可爱的表情包。齐浩初发完这句话,怎么感觉有点暧昧。但又舍不得撤回,就这么着吧。
之后的事情也比较顺利,对样本做了些预处理,然后做各种微调,比如学习率、学习率的调度策略之类的,找出一个评估结果最好的组合,准确率、精确率这些都达到了0.98以上。之后又用tiny-bert进行模型蒸馏,减小模型文件大小,提高了4倍的分类速度,这个智能分类的模型就训练好了。
最后再做成调用接口服务,写好文档材料给研发部门去对接,齐浩初这边的工作就算完成了。
8月23日(周五),齐浩初把智能分类的接口演示界面发给赵语丽试用,赵语丽一口一个“好厉害啊”,“太牛了”,把齐浩初说得心花怒放。用公安局的几十万条数据做样本,就能做一个这么好用的分类模型,虽然是意料之中的,但也是非常有成就感。
然而回过头来,在数据局看着“面纱”的数据,作为目前唯一真正可以看到这些数据的人,齐浩初忍不住想要用这些数据,试试看训练一些分类模型,相似度模型,预测模型之类的,积累些经验。这个平台本身有集成训练数据的模块,有挺不错的GPU资源。
原本只做数据治理的话,齐浩初的账号是没有权限访问这个数据训练的模块的。不过因为当时蒋主任说为了方便齐浩初能随时测试数据效果,也给他申请了这个权限。不同账号能访问的数据不同,而齐浩初有访问回流库所有数据的权限。
齐浩初想着自己只是训练测试而已,不会把模型带出来,也不会正式发布,本身平台里面也有各种临时的测试脚本。唯一不合适的,是他本人原本只是做数据清洗而已,这个训练模块是给他测试下数据是否正常达标,正式算法模型是吕天和的事情。但是某种程度上来说,自己的账号其实比吕天和的账号权限都高。犹豫了几天,终于还是忍不住在数据训练平台开始写训练脚本。
“面纱”的数据果然是厉害,数据质量非常好,而且类型又全面。在测试神经网络和深度学习时,发现了一些有趣的事情,比如从购物习惯可以看出某个有钱人其实有私生子,从高铁记录可以看出某个人的学历是伪造的,从买房买车的记录中可以看出某个人中了彩票但是没和家里人说之类的。当然并不知道具体是谁,只是知道有这个人存在。
然而有一天,齐浩初忽然有点担心起来,虽然隐去了姓名身份证号码,但是数据上的各种标签组合其实也是过滤条件,如果凑齐很多具体的标签,还是有可能指向具体的某个人。于是他用自己的信息做测试,把从小到大的学校名称、生日输入进去,查到有2条数据匹配的数据,之后又对比了工作单位,齐浩初很容易就找到了那条自己的记录,以及自己对应的那个虚拟id。也就是说,如果对某个人足够了解,其实还是可以从“面纱”的库里,找到这个人的所有信息。
想到这里,齐浩初并不是兴奋,而是担忧,他怕在他手上,出现什么数据泄露的事情。因此更加不敢和别人提这个系统,使用的时候也更加小心谨慎,每天上班前都在心里默念几遍“今天不出事,天天不出事”。当然他也不敢汇报,一来这个是国家的系统,他有什么能汇报的,难道国家还会为了他的建议,对这个系统做什么改造。二来他本身也没有被授权使用这些数据做训练,这个结果他又怎么能和别人提起。自己一个打工仔,操这个心干嘛,不要出错就行了。
每次训练测试完,齐浩初只把代码脚本保留在自己的工作空间,生成的模型和临时数据都直接删除了。
9月27日(周五),工作群里,数据局蒋主任突然@所有人:“国家级领导要来视察了。”
倒是有件事情让齐浩初比较开心,因为项目管理部有一个新的活,是公安网警的一个智能舆情分类系统,数据采集由其他方式获取到,希望根据文章内容自动分类。自动分类这个事情,需要一点“智能”参与。这个正好是齐浩初这边的事情,虽然不如吕天和那么厉害,但是自己有过不少AI模型训练的开发经验。只要有合适的样本数据,加上bert-base-chinese这个自然语言模型,可以像人一样理解文章内容,就能高效地构建出一个高准确率的文本分类模型。之前参加了一个“华山论剑创新大赛”,对新闻文章进行智能分类,还得了全国二等奖。数据部门只要做好这个分类接口即可,其他前后端的开发由研发部门去做。
齐浩初正想着接下来要怎么找赵语丽搭话,这不正好就有正当理由了。8月14日(周三),齐浩初在聊天工具里和赵语丽说:“你们部门那个智能分类系统,是你在对接吗?”
“是我这边对接的,这个事情你也参与了?”
“嗯,最核心的智能分类是我这边做的,我训练一个AI模型,做成接口,然后研发部做前后端页面来对接。不过我需要你们提供些数据,就是你们过往人工分类好的那些文章数据。”
“好的啊,我整理下,你什么时候要?”
“你什么时候准备好就行,我随时都在。”还附带了一个可爱的表情包。齐浩初发完这句话,怎么感觉有点暧昧。但又舍不得撤回,就这么着吧。
之后的事情也比较顺利,对样本做了些预处理,然后做各种微调,比如学习率、学习率的调度策略之类的,找出一个评估结果最好的组合,准确率、精确率这些都达到了0.98以上。之后又用tiny-bert进行模型蒸馏,减小模型文件大小,提高了4倍的分类速度,这个智能分类的模型就训练好了。
最后再做成调用接口服务,写好文档材料给研发部门去对接,齐浩初这边的工作就算完成了。
8月23日(周五),齐浩初把智能分类的接口演示界面发给赵语丽试用,赵语丽一口一个“好厉害啊”,“太牛了”,把齐浩初说得心花怒放。用公安局的几十万条数据做样本,就能做一个这么好用的分类模型,虽然是意料之中的,但也是非常有成就感。
然而回过头来,在数据局看着“面纱”的数据,作为目前唯一真正可以看到这些数据的人,齐浩初忍不住想要用这些数据,试试看训练一些分类模型,相似度模型,预测模型之类的,积累些经验。这个平台本身有集成训练数据的模块,有挺不错的GPU资源。
原本只做数据治理的话,齐浩初的账号是没有权限访问这个数据训练的模块的。不过因为当时蒋主任说为了方便齐浩初能随时测试数据效果,也给他申请了这个权限。不同账号能访问的数据不同,而齐浩初有访问回流库所有数据的权限。
齐浩初想着自己只是训练测试而已,不会把模型带出来,也不会正式发布,本身平台里面也有各种临时的测试脚本。唯一不合适的,是他本人原本只是做数据清洗而已,这个训练模块是给他测试下数据是否正常达标,正式算法模型是吕天和的事情。但是某种程度上来说,自己的账号其实比吕天和的账号权限都高。犹豫了几天,终于还是忍不住在数据训练平台开始写训练脚本。
“面纱”的数据果然是厉害,数据质量非常好,而且类型又全面。在测试神经网络和深度学习时,发现了一些有趣的事情,比如从购物习惯可以看出某个有钱人其实有私生子,从高铁记录可以看出某个人的学历是伪造的,从买房买车的记录中可以看出某个人中了彩票但是没和家里人说之类的。当然并不知道具体是谁,只是知道有这个人存在。
然而有一天,齐浩初忽然有点担心起来,虽然隐去了姓名身份证号码,但是数据上的各种标签组合其实也是过滤条件,如果凑齐很多具体的标签,还是有可能指向具体的某个人。于是他用自己的信息做测试,把从小到大的学校名称、生日输入进去,查到有2条数据匹配的数据,之后又对比了工作单位,齐浩初很容易就找到了那条自己的记录,以及自己对应的那个虚拟id。也就是说,如果对某个人足够了解,其实还是可以从“面纱”的库里,找到这个人的所有信息。
想到这里,齐浩初并不是兴奋,而是担忧,他怕在他手上,出现什么数据泄露的事情。因此更加不敢和别人提这个系统,使用的时候也更加小心谨慎,每天上班前都在心里默念几遍“今天不出事,天天不出事”。当然他也不敢汇报,一来这个是国家的系统,他有什么能汇报的,难道国家还会为了他的建议,对这个系统做什么改造。二来他本身也没有被授权使用这些数据做训练,这个结果他又怎么能和别人提起。自己一个打工仔,操这个心干嘛,不要出错就行了。
每次训练测试完,齐浩初只把代码脚本保留在自己的工作空间,生成的模型和临时数据都直接删除了。
9月27日(周五),工作群里,数据局蒋主任突然@所有人:“国家级领导要来视察了。”