我有一个名字列表,其中一些是假名,我需要使用 NLP 和 Python 3.1 来保留真实姓名并扔掉假名
我不知道从哪里开始。我从来没有做过任何 NLP,只用 Python 3.1 编程,我必须使用它。我正在查看该网站 http://www.linkedin.com 并且我必须收集所有…
使用 .Net 进行文本挖掘、事实提取、语义分析
我正在寻找任何免费的工具/组件/库,让我能够在 .NET 应用程序中利用文本挖掘、事实提取和语义分析。 GATE 项目是我所需要的,但它是用 Java 编写的。…
Python - pyparsing unicode 字符
:) 我尝试使用 w = Word(printables),但它不起作用。我应该如何给出这个规格。 'w' 旨在处理印地语字符 (UTF-8) 代码指定语法并进行相应的解析。 671…
如何判断纯文本文件是用什么语言编写的?
假设我们有一个文本文件,其内容为: “Je suis un beau homme ...” 另一个是: 第三个“我是一个勇敢的人”, 附有德语文本: “Guten morgen。Wie …
NLP 项目,python 或 C++
我们正在研究阿拉伯自然语言处理项目,我们的选择仅限于用 Python 或 C++(和 Boost 库)编写代码。我们正在考虑以下几点: Python 比 C++ 慢(正在努…
在 Python 中将单词位置编号附加到 Unicode 文本
我有一个代码,它将单词位置附加到源文件中的单词上 但输出没有按预期出现: 输入文件包含以下内容: 3. भारत का इतिहास काफी समृ…
Java 中的语言识别
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…
C++ - 如何使用 C++ 读取 Unicode 字符(例如印地语脚本)或者通过其他编程语言有更好的方法吗?
我有一个像这样的印地语脚本文件: 3. भारत का इतिहास काफी समृद्ध एवं विस्तृत है। 我必须编写一个程序,为每个…