如何替换和统计单词或单词序列的频率?
我需要做两件事,首先,找到给定的文本,其中最常用的单词和单词序列(仅限于n)。 例子:
Lorem *ipsum* dolor sit amet,consectetur adipiscing elit。 Nunc auctor urna sed urna mattis nec interdum magna ullamcorper。 Donec ut lorem eros,id rhoncus nisl。 Praesent sodales lorem vitae sapien volutpat et accumsan lorem viverra。 Proin lectus elit,cursus ut feugiat ut,porta sit amet leo。 Cras est nisl, aliquet quis lobortis sit amet, viverra nonerat。 Faucibus Orci luctus et ultrices posuere cubilia Curae 中的前庭前庭 (Vestibulum ante ipsum primis);整数 euismod scelerisque quam,et aliquet nibh dignissim at。 Pellentesque ut elit neque。 Etiam facilisis nisl eu mauris luctus in consequat libero volutpat。 Pellentesque auctor,justo in suscipit mollis,erat justo sollicitudin ipsum,in cursuserat ipsum id turpis。 Intincidunt hendrerit celerisque。
(我省略了一些词,但这是一个例子)。
我想要的结果是 sit amet,而不是 sit 和 amet
关于如何开始有什么想法吗?
其次,我需要将给定列表中匹配的所有单词或单词序列包装到给定文件中。
为此,我认为按长度递减对结果进行排序,然后在替换函数中处理每个字符串,以避免在列表中还有另一个 sit 单词时包裹 sit amet 。 这是一个好方法吗?!
谢谢
I need to do two things, first, find a given text which are the most used word and word sequences (limited to n).
Example:
Lorem *ipsum* dolor sit amet, consectetur adipiscing elit. Nunc auctor urna sed urna mattis nec interdum magna ullamcorper. Donec ut lorem eros, id rhoncus nisl. Praesent sodales lorem vitae sapien volutpat et accumsan lorem viverra. Proin lectus elit, cursus ut feugiat ut, porta sit amet leo. Cras est nisl, aliquet quis lobortis sit amet, viverra non erat. Vestibulum ante ipsum primis in faucibus orci luctus et ultrices posuere cubilia Curae; Integer euismod scelerisque quam, et aliquet nibh dignissim at. Pellentesque ut elit neque. Etiam facilisis nisl eu mauris luctus in consequat libero volutpat. Pellentesque auctor, justo in suscipit mollis, erat justo sollicitudin ipsum, in cursus erat ipsum id turpis. In tincidunt hendrerit scelerisque.
(some words my have been omited, but it's an example).
I'd like to result with sit amet and not sit and amet
Any ideas on how to start?
Second, I need to wrap all the words or word sequences matched from a given list in a given file.
For this, I think to order the result by desceding length and then process each string in replace function, to avoid having sit amet wrapped if I have another sit word in my list.
Is it a good way to do?!
Thank you
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这是一个功能性的解决方案,仍然需要一些清理工作。我的一般算法是这样的:
去除多余的空白和
标点符号
从偏移量 0 开始的 w 块
从偏移量 1 开始的 w 块
开始的 n 长度块的数组
c
This is a functional solution that could still use some cleaning up. My general algorithm is this:
stripping excess whitespace and
punctuation
chunks of w starting at offset 0
chunks of w starting at offset 1
c