python怎么清理数据？怎么进行标准格式化的处理？自然语言处理的方法？

发布于 2022-09-12 03:00:20 字数 695 浏览 19 评论 0

1.近期准备开发一个工作上的软件，涉及到银行的联行号识别，需要处理相关数据。但是数据又不是非常标准的数据，我自己尝试写过相关处理方法，但是涉及到需要考虑的情况非常多，始终没有达到自己的预期。
2.需要处理的数据大概是以下类型。我自己从网上爬取了标准的银行行号数据，保存到了本地的excel，现在需要做到一一匹配。
QQ截图20200530231651.jpg
QQ截图20200530232023.jpg
3.目前遇到的问题是，需要处理的数据格式不统一。比如，建行成都第一支行，源数据可能的情况有：建行成都市第一支行，建行股份有限公司成都一支行，中国建设银行股份有限公司成都一支行，中国建行成都市第一支行等等。最终，我想要的结果是能够识别成标准的数据格式（需要与爬取的本地excel数据库进行精准匹配），源数据需要处理成银行+城市+关键字（上述的第一支行就是关键字），这样我就可以通过标准数据库查找到相应的行号了。我尝试用过fuzzywuzzy模块中的process来进行相应匹配，效果不是很理想。比如工行第一支行，建行第一支行，在process中匹配建设银行股份有限公司第一支行匹配结果一样，匹配比例是一样的，需要人工干预，但是银行行类别太多，无法做到每个银行单独匹配。
最后，麻烦大家了，谢谢。