从pdf文件中提取的文本中提取带小数点的数字
我需要从以下字符串中仅提取带小数点的数字。我使用了 re 模块,但遇到了多个逗号的问题(不能有逗号或超过 1 个)。另一个问题是十进制数字后面跟着单词(即 1,513,971.63Savings )。由于我从 PDF 文件中提取了字符串,因此无法更改格式。
示例字符串:
Date: 01-Mar-2022BETKA Br (0225)LIABILITIESCUSTOMER DEPOSITS 19,858,700.86Current Deposit12102010010165 350,745,799.38Saving Deposits12102010050170 174,381.98SB Bidhaba Bhata12102010060171 1,125,990.66SB Bayaska Bhata12102010070172 131,647.15SB Pratibandhy
输出:
19,858,700.86
350,745,799.38
174,381.98
1,125,990.66
131,647.15
有人帮忙吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我猜您错过了174,381.98。如果是这样,请使用
(\d+(?:[,.]\d+)+)
模式获得预期结果。I guess you missed the 174,381.98. If so, use
(\d+(?:[,.]\d+)+)
pattern to get the expected result.