查找文本中最常见术语的简单工具
我有一篇文本,我想提取最常见的术语,即使由多个单词组成(即:总经理、职位、薪水、网络开发人员)。
我需要一个库或一个可安装的可执行文件,而不是一个网络服务。
我遇到了一些需要培训的复杂工具(例如 Topia 的术语提取,MAUI)。对于我的目的来说,它们过于复杂,我发现它们很难被我使用。
我只需要一个可以提取文本中最常见术语的软件。
谢谢。
I have a text and I would like to extract the most recurrent terms, even if made up by more than one word (i.e.: managing director, position, salary, web developer).
I would need a library or an installable executable, more than a web service.
I came across some complex tools (such as Topia's Term Extraction, MAUI) that require training. There are overcomplicated for my purpose and I find them difficult to use by me.
I just need a piece of software that extracts the most recurrent terms in a text.
Thanks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
你用Linux吗?我使用这些 shell 函数,
其中
parse-collocation
是实际使用的函数。它接受两个可选参数:第一个参数设置要从结果中跳过的术语的最大重复频率(默认为 0,即考虑所有术语)。第二个参数设置要搜索的最大术语长度。该函数将从标准输入读取文本并将术语逐行打印到标准输出。它需要位于/tmp/wordsets-helper-collocations
的字典文件(下载一个 此处):用法示例:
几乎就是您想要的。但是,如果您不希望术语与字典匹配,则可以使用此
ngrams
的第一个参数设置最小术语长度,而其第二个(可选)参数设置最大术语长度。Do you use linux? I use these shell functions
Where
parse-collocation
is the actual function to use. It accepts two optional parameters: The first sets the maximum recurring frequency of the terms to be skipped from the result (defaults to 0, i.e. consider all terms). The second parameter sets the maximum term length to search for. The function will read the text from stdin and print the terms to stdout line by line. It requires a dictionary file at/tmp/wordsets-helper-collocations
(download one here):Usage example:
would be pretty much what you want. However, if you don't want terms to be matched with a dictionary, you can use this one
ngrams
's first parameter sets the minimum term length whereas its second (optional) parameter sets the maximum term length.