python怎么清理数据?怎么进行标准格式化的处理?自然语言处理的方法?

发布于 2022-09-12 03:00:20 字数 695 浏览 13 评论 0

1.近期准备开发一个工作上的软件,涉及到银行的联行号识别,需要处理相关数据。但是数据又不是非常标准的数据,我自己尝试写过相关处理方法,但是涉及到需要考虑的情况非常多,始终没有达到自己的预期。
2.需要处理的数据大概是以下类型。我自己从网上爬取了标准的银行行号数据,保存到了本地的excel,现在需要做到一一匹配。
QQ截图20200530231651.jpg
QQ截图20200530232023.jpg
3.目前遇到的问题是,需要处理的数据格式不统一。比如,建行成都第一支行,源数据可能的情况有:建行成都市第一支行,建行股份有限公司成都一支行,中国建设银行股份有限公司成都一支行,中国建行成都市第一支行等等。最终,我想要的结果是能够识别成标准的数据格式(需要与爬取的本地excel数据库进行精准匹配),源数据需要处理成银行+城市+关键字(上述的第一支行就是关键字),这样我就可以通过标准数据库查找到相应的行号了。我尝试用过fuzzywuzzy模块中的process来进行相应匹配,效果不是很理想。比如工行第一支行,建行第一支行,在process中匹配建设银行股份有限公司第一支行匹配结果一样,匹配比例是一样的,需要人工干预,但是银行行类别太多,无法做到每个银行单独匹配。
最后,麻烦大家了,谢谢。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

や三分注定 2022-09-19 03:00:20

数据在你手上,你自己都无法摸清楚数据格式,你觉得凭你这寥寥几段话,就能有人帮得到你?

即使是之前到处在吹捧的人工智能,背后其实也是有大量的人工干预的部分,你这点事情,自己好好花点时间就是了

再见回来 2022-09-19 03:00:20

先做中文分词

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文