如何找到文本特征并打印它们?
我刚刚开始使用自然语言工具包 (NLTK) 作为我的工程学院项目的一部分。谁能告诉我如何阅读输入段落文本以及
1)将其分解为文本组件,即句子数、单词数、字符数和多音节或多音节数给定段落中的复杂单词
,以及
2) 还打印上述确定的值
I have just started using Natural Language Toolkit (NLTK) as a part of my Engineering college project. Can anybody please tell me how do I read an input paragraph text and
1) break it down into textual components i.e into number of sentences, number of words, number of characters and number of polysyllabic or complex words in the given paragraph
and
2) Also print the above determined values
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
输入的段落从哪里来?文件?安慰?与 NLTK 相比,这更像是一个 Python 问题。
其余的,请查看 nltk.tokenize 模块 & nltk.probability.FreqDist。
Where's the input paragraph coming from? File? Console? That's more of a python issue than NLTK.
For the rest, look at the nltk.tokenize module & nltk.probability.FreqDist.
摘自 NLTK Google 论坛:
这应该能够为您提供每个单词的音节数。希望这有帮助。
From a discussion on the NLTK google group:
This should be able to give you a syllable count for each word. Hope this helps.