好久不见,各位兄弟

Hello,mate!

过年后就有点被各路招聘信息迷花了眼,不过了解了一圈以后,离自己满意的都还差那么一点意思,也许继续沉淀才是更明智的选择。

今天在工作中遇到一个数据分析的有意思的场景,简单描述下,就是一组数据有69个字段(field)描述各方面的信息。其中的一个字段作为唯一标识ID,然后别的比较关键的field约十处左右,文本A有10800多组这样的数据,文本B有9986组,A和B的重复部分有9600多组,然后分析A和B各自多出的部分在关键field上有什么区别。

任务前半段的数据筛选,其实要实现的就是一道高中数学难度的关于子集余集的解题,主要有两个技术思路,一个是把文本上传至GCP的数据库,然后用自带的SQL语言,筛出数据,一个就是用python对其进行第一步的筛选,由于python一行代码就能搞定这一步,我当时果断无脑选择后者。代码:for id in A if id not in B

后半段的数据分析,其实就是归类这些独特数据组在关键字段上的值,这里使用了python自带的counter类函数(哈哈,python对于程序员来说真的就是友好,啥功能都有),对于这种多维的字典型函数,你只要告诉python你想归类哪个field就行,顺便吐槽一句,如果你无法确定哪些是关键field,那就去chatgpt输入,ta会告诉你的哈哈哈。(当然银行的业务是不可能向外部平台输入信息的,所以我们正在借助定制版的transformer搭建自己的LLM,我司还是紧跟时代潮流的)

最后,大功告成,下班!睡觉,晚安


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注