无需第三方工具即可从 C# 中的 ms word 中提取所有/唯一单词
我必须从 MS Word 文件中提取所有单词,然后将它们存储在表中以供进一步搜索。有没有办法逐字读取 MS Word 文件。我知道我可以复制所有文本并将其放入变量中,然后在空格或选项卡上开始阅读它,但有更好的方法吗?
I have to extract all the words from a MS word file and then store them in a table for further searching. Is there a way to read the MS Word file word by word. I know I can copy all the text and put it in a variable and on space or tab start reading it but is there a better way?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这是以前的 SO 帖子,您可以在其中了解如何使用 C# 将单词中的所有文本放入变量中:
如何单独抓取 Word 文档中的每一页文本(使用 .NET)?
然后,使用
string.Split(" ")
将文本拆分为单词数组。编辑:在这里
http://www.dotnetperls.com/string-split
您可以找到一些示例使用正则表达式将文本拆分为单词。这一款
可能适合您的需求。
Here is a former SO post where you see how to get all text from word into a variable using C#:
How can I grab each page of text in a Word doc separately (using .NET)?
Afterwards, use
string.Split(" ")
to split the text into an array of words.EDIT: Here
http://www.dotnetperls.com/string-split
you find some examples for splitting a text into words using regular expressions. This one
may suit your needs.