比较两个大熊猫系列,其中元素是逗号分隔字符串与矢量操作
我正在为RecordLinkage Python库创建一种自定义比较算法。我的功能将两个熊猫系列作为参数,其中该系列的每个元素都是一个或多个电话号码的列表。因此…
有没有办法加快Python中的记录链接来比较类似的记录
我正在使用Python中的RecordInlinkage库来检测几个遗产属性数据集中的重复项,这些遗产属性每周都会从几个网站上刮擦网络。在此过程中,我将以下数字…
与Python模块recordLinkage索引时,是否有类似于大约相等数字值的阻止索引?
我有一个音乐曲目的SQLite数据库,我想删除重复。我想根据标题和持续时间比较曲目。 (我可能会尝试稍后将艺术家扔进去,但这是一个单独的桌子(每首…
解决 Pandas 数据框中的冲突
我正在数据帧上执行记录链接,例如: ID_1 ID_2 Predicted Link Probability 1 0 1 0.9 1 1 1 0.5 1 2 0 0 2 1 1 0.8 2 5 1 0.8 3 1 0 0 3 2 1 0.5 当…
使用 NetworkX 根据相似性绘制节点之间的边?
这是我的玩具节点数据框: import pandas as pd df = pd.DataFrame({ 'id': [1, 2, 3, 4, 5], 'a': [55, 2123, -19.3, 9, -8], 'b': ['aa', 'bb', 'ad…
如何使用 R 的 RecordLinkage 包获取匹配对
谁能告诉我我在这里做错了什么。我正在尝试在玩具数据集上测试 R 包 RecordLinkage 的比较函数, > test<-cbind( + a = c(1, 1, 1), + b = c(2, 0, 2)…
Fellegi-Sunter 是否有开源实现?
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
如何确定每个来源中的记录是否代表同一个人
我有多个包含个人数据的表源,如下所示: SOURCE 1 ID, FIRST_NAME, LAST_NAME, FIELD1, ... 1, jhon, gates ... SOURCE 2 ID, FIRST_NAME, LAST_NAME…
- 共 1 页
- 1