将一个大字符串拆分为多个包含“n”的子字符串通过python计算单词数
源文本:美国独立宣言
如何将上述源文本拆分为多个子字符串,包含“n”个单词?
我使用 split(' ') 来提取每个单词,但是我不知道如何在一次操作中提取多个单词。
我可以遍历现有的单词列表,然后通过将第一个列表中的单词粘合在一起(同时添加空格)来创建另一个单词。然而我的方法不是很Pythonic。
Source text: United States Declaration of Independence
How can one split the above source text into a number of sub-strings, containing an 'n' number of words?
I use split(' ') to extract each word, however I do not know how to do this with multiple words in one operation.
I could run through the list of words that I have, and create another by gluing together words in the first list (whilst adding spaces). However my method isn't very pythonic.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
打印:
或者,作为列表理解:
prints:
or, as a list comprehension:
您正在尝试创建 n 元语法吗?以下是我使用 NLTK 的方法。
然后
You're trying to create n-grams? Here's how I do it, using the NLTK.
Then
对于大字符串,建议使用迭代器,以提高速度并减少内存占用。
将得到以下结果:
For large string, iterator is recommended for speed and low memory footprint.
will get the following result: