如何制作文本文件(或其他文档)解析器?
我有以下任务要做:填充拼写检查字典(简单的txt文件)我需要解析器 它应该: - 在文本文件(或其他类型的文档)中解析,提取 每个单词,然后使用简单的单词列表创建文本文件,如下所示: 阿德法德夫 阿德法斯德法 阿德法斯夫达斯德夫 广告 ... ETC 您建议使用哪种脚本语言和库?如果可能,请给出代码示例(尤其是提取每个单词的代码)。谢谢!
I have following task to do: to fill spell check dictionary (simple txt file) I need parser
which should: - parse within text file (or another type of document), extract
each word and then create text file with simple list of words like this:
adfadf
adfasdfa
adfasfdasdf
adsfadf
...
etc
What scripting language and library you would suggest? If possible, please, give example of code (especially for extracting each word). Thanks!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
你想要的不是一个解析器,而只是一个分词器。这可以在任何带有一堆正则表达式的语言中完成,但我推荐使用 NLTK 的 Python:
通常,几乎任何 NLP 工具包都将包含分词器,因此无需重新发明轮子;标记化并不难,但它涉及编写大量启发式方法来处理所有异常,例如缩写、首字母缩略词等。
What you want is not a parser, but just a tokenizer. This can be done in any language with a bunch of regular expressions, but I do recommend Python with NLTK:
Generally, just about any NLP toolkit will include a tokenizer, so there's no need to reinvent the wheel; tokenizing isn't hard, but it involves writing a lot of heuristics to handle all the exceptions such as abbreviations, acronyms, etc.