返回介绍

08.5.2 逐词读取文本文件

发布于 2024-08-14 12:50:32 字数 3515 浏览 0 评论 0 收藏 0

本节中展示的技术将通过byWord.go文件演示,它由四部分组成。正如你在Go代码中看到的,分隔一行中的单词可能比较棘手。程序的第一部分如下:

package main

import (
    "bufio"
    "flag"
    "fmt"
    "io"
    "os"
    "regexp"
)

byWord.go的第二部分代码如下:

func wordByWord(file string) error {
    var err error
    f, err := os.Open(file)
    if err != nil {
        return err
    }
    defer f.Close()

    r := bufio.NewReader(f)
    for {
        line, err := r.ReadString('\n')
        if err == io.EOF {
            break
        } else if err != nil {
            fmt.Printf("error reading file %s", err)
            return err
        }

wordByWord()函数的这部分代码和byLine.go程序的lineByLine()函数一样。

byWord.go第三部分代码如下:

        r := regexp.MustCompile("[^\\s]+")
          words := r.FindAllString(line, -1)
          for i := 0; i < len(words); i++ {
              fmt.Printf(words[i])
          }
    }
    return nil
}

wordByWord()函数的剩余代码是全新的,并使用正则表达式对输入的每行进行单词分割。正则表达式regexp.MustCompile("[^\\s]+")使用空格分割单词。

byWord.go的最后一部分代码如下:

func main() {
    flag.Parse()
    if len(flag.Args()) == 0 {
        fmt.Printf("usage: byWord <file1> [<file2> ...]\n")
        return
    }

    for _, file := range flag.Args() {
        err := wordByWord(file)
        if err != nil {
            fmt.Println(err)
        }
    }
}

执行byWord.go会产生如下的输出:

$ go run byWord.go /tmp/adobegc.log
01/08/18
20:25:09:669
|
[INFO]

可以使用wc(1)验证byWord.go的正确性:

$ go run byWord.go /tmp/adobegc.log | wc
    91591     91591     559005
$ wc /tmp/adobegc.log
    4831      91591     583454     /tmp/adobegc.log

如你所见,wc(1)计算所得的单词数和byWord.go一致。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文