如何找到文本特征并打印它们?

发布于 2024-10-17 18:56:35 字数 198 浏览 4 评论 0原文

我刚刚开始使用自然语言工具包 (NLTK) 作为我的工程学院项目的一部分。谁能告诉我如何阅读输入段落文本以及

1)将其分解为文本组件,即句子数、单词数、字符数和多音节或多音节数给定段落中的复杂单词

,以及

2) 还打印上述确定的值

I have just started using Natural Language Toolkit (NLTK) as a part of my Engineering college project. Can anybody please tell me how do I read an input paragraph text and

1) break it down into textual components i.e into number of sentences, number of words, number of characters and number of polysyllabic or complex words in the given paragraph

and

2) Also print the above determined values

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

柠栀 2024-10-24 18:56:35

输入的段落从哪里来?文件?安慰?与 NLTK 相比,这更像是一个 Python 问题。

其余的,请查看 nltk.tokenize 模块 & nltk.probability.FreqDist。

Where's the input paragraph coming from? File? Console? That's more of a python issue than NLTK.

For the rest, look at the nltk.tokenize module & nltk.probability.FreqDist.

清泪尽 2024-10-24 18:56:35

摘自 NLTK Google 论坛:

import curses 
from curses.ascii import isdigit 
import nltk 
from nltk.corpus import cmudict

d = cmudict.dict() 

def nsyl(word): 
  return [len(list(y for y in x if isdigit(y[-1]))) for x in d[word.lower()]] 

这应该能够为您提供每个单词的音节数。希望这有帮助。

From a discussion on the NLTK google group:

import curses 
from curses.ascii import isdigit 
import nltk 
from nltk.corpus import cmudict

d = cmudict.dict() 

def nsyl(word): 
  return [len(list(y for y in x if isdigit(y[-1]))) for x in d[word.lower()]] 

This should be able to give you a syllable count for each word. Hope this helps.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文