返回介绍

数据清洗

发布于 2023-06-25 22:01:52 字数 2104 浏览 0 评论 0 收藏 0

读取清洗的效率还是挺快的

package main

import (
    "bufio"
    "fmt"
    "io"
    "os"
    "strings"

    "github.com/axgle/mahonia"
)

func main() {
    // 1.打开文件
    file, _ := os.Open("./kaifang.txt")
    defer file.Close()
    // 创建优质文件
    goodFile, _ := os.OpenFile("./kaifang_good.txt", os.O_CREATE|os.O_WRONLY|os.O_APPEND, 0666)
    defer goodFile.Close()
    // 创建劣质文件
    badFile, _ := os.OpenFile("./kaifang_bad.txt", os.O_CREATE|os.O_WRONLY|os.O_APPEND, 0666)
    defer badFile.Close()
    // 2.缓冲读取
    reader := bufio.NewReader(file)
    for {
        lineBytes, _, err := reader.ReadLine()
        if err == io.EOF {
            break
        }
        gbkStr := string(lineBytes)
        lineStr := ConvertEncoding(gbkStr, "GBK")
        // 3.根据行数据,取身份证
        fields := strings.Split(lineStr, ",")
        // 判断长度大于等于2,下标1的位置长度=18
        if len(fields) >= 2 && len(fields[1]) == 18 {
            goodFile.WriteString(lineStr + "\n")
            fmt.Println("Good:", lineStr)
        } else {
            badFile.WriteString(lineStr + "\n")
            fmt.Println("Bad:", lineStr)
        }
    }
}

func ConvertEncoding(srcStr string, encoding string) (dstStr string) {
    // 创建编码处理器
    enc := mahonia.NewDecoder(encoding)
    // 编码器处理字符串为utf8的字符串
    utfStr := enc.ConvertString(srcStr)
    dstStr = utfStr
    return
}

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文