好久不见，各位兄弟

Hello,mate!

过年后就有点被各路招聘信息迷花了眼，不过了解了一圈以后，离自己满意的都还差那么一点意思，也许继续沉淀才是更明智的选择。

今天在工作中遇到一个数据分析的有意思的场景，简单描述下，就是一组数据有69个字段（field）描述各方面的信息。其中的一个字段作为唯一标识ID，然后别的比较关键的field约十处左右，文本A有10800多组这样的数据，文本B有9986组，A和B的重复部分有9600多组，然后分析A和B各自多出的部分在关键field上有什么区别。

任务前半段的数据筛选，其实要实现的就是一道高中数学难度的关于子集余集的解题，主要有两个技术思路，一个是把文本上传至GCP的数据库，然后用自带的SQL语言，筛出数据，一个就是用python对其进行第一步的筛选，由于python一行代码就能搞定这一步，我当时果断无脑选择后者。代码：for id in A if id not in B

后半段的数据分析，其实就是归类这些独特数据组在关键字段上的值，这里使用了python自带的counter类函数（哈哈，python对于程序员来说真的就是友好，啥功能都有），对于这种多维的字典型函数，你只要告诉python你想归类哪个field就行，顺便吐槽一句，如果你无法确定哪些是关键field,那就去chatgpt输入，ta会告诉你的哈哈哈。（当然银行的业务是不可能向外部平台输入信息的，所以我们正在借助定制版的transformer搭建自己的LLM,我司还是紧跟时代潮流的）

最后，大功告成，下班！睡觉，晚安

评论

发表回复取消回复

好久不见，各位兄弟

评论

发表回复 取消回复

发表回复取消回复