- 前景
- 开发环境
- Go 基础
- 流程控制
- 函数
- 方法
- 面向对象
- 网络编程
- 并发编程
- 数据操作
- 常用标准库
- beego 框架
- gin 框架
- 微服务
- 插件库
- 项目
- 开源仓库
- go 学习线路图
- 音频和音乐
- 身份验证和 OAuth
- 机器人相关
- 标准 CLI
- 构建用户界面库
- 配置
- 持续集成
- CSS 预处理器
- 数据结构
- 数据库
- 数据库驱动
- 日期和时间
- 分布式系统
- 电子邮件
- 嵌入式脚本语言
- 错误处理
- 文件
- 金融
- Forms
- 功能性
- 游戏开发
- 生成与泛型
- 地理位置
- 编译器
- Goroutines
- 图形界面
- 图片
- 物联网
- 工作计划
- JSON格式
- Logging
- 机器学习
- 实现消息传递
- 微软办公软件
- 依赖注入
- 项目布局
- Strings
- 其他
- 自然语言处理
- 网络
- HTTP 客户端
- OpenGL
- ORM
- 包管理
- 性能
- 查询语言
- 资源嵌入
- 科学与数据分析
- 安全
- 序列化
- 服务器应用
- 流处理
- 模板引擎
- 测试
- 文字处理
- 第三方 API
- 实用工具
- UUID
- 验证方式
- 版本控制
- 视频
- Web 框架
- 中间件
- 路由器
- 视窗
- XML 格式
- 代码分析
- 编辑器插件
- 硬件
- go 生成工具
- go 工具
- DevOps 工具
- 其他
文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
数据清洗
读取清洗的效率还是挺快的
package main
import (
"bufio"
"fmt"
"io"
"os"
"strings"
"github.com/axgle/mahonia"
)
func main() {
// 1.打开文件
file, _ := os.Open("./kaifang.txt")
defer file.Close()
// 创建优质文件
goodFile, _ := os.OpenFile("./kaifang_good.txt", os.O_CREATE|os.O_WRONLY|os.O_APPEND, 0666)
defer goodFile.Close()
// 创建劣质文件
badFile, _ := os.OpenFile("./kaifang_bad.txt", os.O_CREATE|os.O_WRONLY|os.O_APPEND, 0666)
defer badFile.Close()
// 2.缓冲读取
reader := bufio.NewReader(file)
for {
lineBytes, _, err := reader.ReadLine()
if err == io.EOF {
break
}
gbkStr := string(lineBytes)
lineStr := ConvertEncoding(gbkStr, "GBK")
// 3.根据行数据,取身份证
fields := strings.Split(lineStr, ",")
// 判断长度大于等于2,下标1的位置长度=18
if len(fields) >= 2 && len(fields[1]) == 18 {
goodFile.WriteString(lineStr + "\n")
fmt.Println("Good:", lineStr)
} else {
badFile.WriteString(lineStr + "\n")
fmt.Println("Bad:", lineStr)
}
}
}
func ConvertEncoding(srcStr string, encoding string) (dstStr string) {
// 创建编码处理器
enc := mahonia.NewDecoder(encoding)
// 编码器处理字符串为utf8的字符串
utfStr := enc.ConvertString(srcStr)
dstStr = utfStr
return
}
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论