如何制作文本文件（或其他文档）解析器？

发布于 2024-12-14 16:15:19 字数 177 浏览 2 评论 0原文

我有以下任务要做：填充拼写检查字典（简单的txt文件）我需要解析器它应该： - 在文本文件（或其他类型的文档）中解析，提取每个单词，然后使用简单的单词列表创建文本文件，如下所示：阿德法德夫阿德法斯德法阿德法斯夫达斯德夫广告 ... ETC 您建议使用哪种脚本语言和库？如果可能，请给出代码示例（尤其是提取每个单词的代码）。谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我很OK 2024-12-21 16:15:20

你想要的不是一个解析器，而只是一个分词器。这可以在任何带有一堆正则表达式的语言中完成，但我推荐使用 NLTK 的 Python：

>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']

通常，几乎任何 NLP 工具包都将包含分词器，因此无需重新发明轮子；标记化并不难，但它涉及编写大量启发式方法来处理所有异常，例如缩写、首字母缩略词等。

What you want is not a parser, but just a tokenizer. This can be done in any language with a bunch of regular expressions, but I do recommend Python with NLTK:

>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']

Generally, just about any NLP toolkit will include a tokenizer, so there's no need to reinvent the wheel; tokenizing isn't hard, but it involves writing a lot of heuristics to handle all the exceptions such as abbreviations, acronyms, etc.

回复收藏 0 原文

~没有更多了~