当前位置：文江博客话题详情

对于Java，有一个分词器完全符合我想要的吗？

发布于 2024-11-26 15:06:57 字数 280 浏览 3 评论 0原文

我想标记文本，但不仅仅用空格分隔。

有些东西，比如专有名称，我只想设置一个标记（例如：“Renato Dinhani Conceição”）。另一种情况：百分比（“60％”）并且不分为两个标记。

我想知道是否有某个库中的 Tokenizator 可以提供高度定制化？如果没有，我会尝试编写自己的，如果有一些接口或实践可以遵循。

并非所有事情都需要得到普遍认可。示例：我不需要识别中文字母。

我的申请是大学申请，主要针对葡萄牙语。只有一些内容，例如名称、地点和类似内容会来自其他语言。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鱼忆七猫命九 2024-12-03 15:06:57

我会尝试不从代币化的角度，而是从规则的角度来解决这个问题。这将是最大的挑战 - 创建一个全面的规则集来满足您的大多数情况。

用人类的术语定义什么是不应根据空格分割的单位。名称示例就是其中之一。
对于空白分割的每一个例外，创建一组规则来识别它。对于名称示例：2 个或多个连续的大写单词，中间有或没有语言特定的非大写名称单词（例如“de”）。
将每个规则实现为其自己的类，可以在循环时调用该类。
根据空格分割整个字符串，然后循环它，跟踪之前出现的标记和当前出现的标记，为每个标记应用规则类。

规则 isName 示例：

循环 1：（例如： isName = false
循环 2："Renato isName = true
循环 3：Dihani isName = true
循环 4：Conceição"). isName = true
循环 5：Another isName = false

留给您：（例如：， “Renato Dinhani Conceição”）。，另一个

回复收藏 0 原文

瑾兮 2024-12-03 15:06:57

我认为分词器对于你想要的东西来说太简单了。分词器的一个升级是像 JFlex 这样的词法分析器。这些将把字符流分割成单独的标记，就像标记器一样，但具有更灵活的规则。

即便如此，您似乎仍需要某种自然语言处理，因为教词法分析器区分专有名称和普通单词之间的区别可能很棘手。通过教它一串以大写字母开头的单词都属于一起，数字后面可以跟单位等等，你也许可以走得很远。祝你好运。

回复收藏 0 原文

揽清风入怀 2024-12-03 15:06:57

您应该尝试 Apache OpenNLP。它包括可供使用的葡萄牙语句子检测器和分词器模型。

下载 Apache OpenNLP 并解压。将葡萄牙语模型复制到 OpenNLP 文件夹。从 http://opennlp.sourceforge.net/models-1.5/ 下载模型

从命令行使用它：

bin/opennlp TokenizerME pt-ten.bin 
Loading Tokenizer model ... done (0,156s)
O José da Silva chegou, está na sua sala.
O José da Silva chegou , está na sua sala .

使用 API：

// load the model
InputStream modelIn = new FileInputStream("pt-token.bin");

try {
  TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
  e.printStackTrace();
}
finally {
  if (modelIn != null) {
    try {
      modelIn.close();
    }
    catch (IOException e) {
    }
  }
}

// load the tokenizer
Tokenizer tokenizer = new TokenizerME(model);

// tokenize your sentence
String tokens[] = tokenizer.tokenize("O José da Silva chegou, está na sua sala.");

You should try Apache OpenNLP. It includes ready to use Sentence Detector and Tokenizer models for Portuguese.

Download Apache OpenNLP and extract it. Copy the Portuguese model to the OpenNLP Folder. Download the model from http://opennlp.sourceforge.net/models-1.5/

Using it from command line:

bin/opennlp TokenizerME pt-ten.bin 
Loading Tokenizer model ... done (0,156s)
O José da Silva chegou, está na sua sala.
O José da Silva chegou , está na sua sala .

Using the API:

// load the model
InputStream modelIn = new FileInputStream("pt-token.bin");

try {
  TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
  e.printStackTrace();
}
finally {
  if (modelIn != null) {
    try {
      modelIn.close();
    }
    catch (IOException e) {
    }
  }
}

// load the tokenizer
Tokenizer tokenizer = new TokenizerME(model);

// tokenize your sentence
String tokens[] = tokenizer.tokenize("O José da Silva chegou, está na sua sala.");

回复收藏 0 原文