从句子中查找相似的单词
如何从很多句子中找到相似的单词?我尝试用谷歌搜索,但无法找到此类问题的具体算法,猜测我没有输入正确的关键词(尝试从句子中查找相似的单词,从文章中查找相似的单词等)。
我有一个包含超过 5000 个单词的数据库,它们的长度从 5~20 个字符不等。
db中的单词(示例):
イオヘキソール
アミドトリゾ酸Naメグルミン
イオトロクス酸メグルミン
ルトラール
ロキソニン錠
输入句子示例:
■11/10/21 日吉台病院
ロキソニン錠60mg
1回 1T 青の點誤を保護する業
胃炎的症状を改善する美
千葉県八街市八街ほ 385-59
我想从这些句子中找出db中的“ロキソnin锭”,现实世界中可能存在100个这样的句子。什么样的算法可以帮助我从句子中找出与db相似的单词?
我提出的简单解决方案是将数据库中每个单词与每个句子的编辑距离一一比较,但这需要nxm次(假设每个单词的比较次数为常数值),我们是否有更快的方法来获得工作完成了吗?谢谢
How could I find similar words from many sentences? I try to google but cannot find specific algorithm for this kind of problem, guess I did not enter correct keys words(tried find similar words from sentences, find similar words from articles etc).
I have a db which contain more than 5000 words, their length vary from 5~20 characters.
Words from db(example):
イオヘキソール
アミドトリゾ酸Naメグルミン
イオトロクス酸メグルミン
ルトラール
ロキソニン錠
Example of input sentences:
■11/10/21 日吉台病院
ロキソニン錠60mg
1回 1T 青の點誤を保護する業
胃炎的症状を改善する美
千葉県八街市八街ほ 385-59
I would like to find out "ロキソニン錠" in the db from these sentences, in the real world there may exist 100 sentences like these. What kind of algorithms could help me find out the words similar to the db from the sentences?
Naive solution I come up is compare the Levenshtein distance of every words of the db with every sentences one by one, but this need to take nxm times(assume comparison times of each words as constant value), do we have a faster way to get the job done? Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论