text-processing

text-processing

文章 0 浏览 6

接近 MySQL 中的串行文本文件读取性能

我正在尝试在 python 中执行一些 n-gram 计数,我想我可以使用 MySQL(MySQLdb 模块)来组织我的文本数据。 我有一个相当大的表,大约有 1000 万条记…

伴梦长久 2024-10-06 16:56:14 9 0

VB.net 的正则表达式

我有一个txt文件,其内容 $NETS P3V3_AUX_LGATE; PQ6.8 PU37.2 U335_PIN1; R3328.1 U335.1 $END 需要以此格式更新,并保存回另一个txt文件 $NETS 'P3V…

ま昔日黯然 2024-10-05 16:29:15 6 0

Perl:使用 Text::CSV 我可以写出哈希引用吗?

我有一个 Perl 脚本,它读取 CSV 文件,更改原始列名称,添加新列名称(输出 CSV 列名称存储在数组 header_line 中),为读取的每一行添加新字段值,…

你如我软肋 2024-10-01 13:29:57 6 0

Python:翻译/替换字符串中不是你想要的单词

基本上,我有一堆短语,我只对包含某些单词的短语感兴趣。我想做的是 1)找出该单词是否存在,如果存在,2)删除所有其他单词。我可以用一堆 if 和 fo…

神也荒唐 2024-09-30 05:19:03 8 0

文本处理软件推荐

我需要处理文本文件以提取相关信息,以便稍后输入 R 进行统计分析。文本文件内容通常类似于下面显示的示例摘录。董事会能否就我应该为此目的使用哪种…

小霸王臭丫头 2024-09-27 11:45:27 5 0

如何循环遍历文件中的行块?

我有一个如下所示的文本文件,其中的行块由空行分隔: ID: 1 Name: X FamilyN: Y Age: 20 ID: 2 Name: H FamilyN: F Age: 23 ID: 3 Name: S FamilyN: …

数理化全能战士 2024-09-26 18:52:53 4 0

如何在 Perl 中修剪文件的内容?

我想在 Perl 中将文件的内容从某个字符删除到文件中的某个字符。我如何使用脚本来做到这一点? 文件有这样的: Syslog logging: enabled (11 messages…

一抹淡然 2024-09-25 20:14:58 4 0

在一步(命令)中按列连接两个具有相同标识符的制表符分隔文件?

我经常想连接两个 ascii 文件,它们都是表,因为它们由制表符分隔的列组成,如下所示: file 1 FRUIT ID apple alpha banana beta cherry gamma file …

叫思念不要吵 2024-09-25 20:08:37 3 0

将字符串解析为树结构?

我试图弄清楚如何将这种格式的字符串解析为任意深度的树状数据结构。 "{{Hello big|Hi|Hey} {world|earth}|{Goodbye|farewell} {planet|rock|globe{.|…

秋千易 2024-09-25 15:20:08 4 0

UNIX shell:如何找到可搜索的表达式?

git status 的结尾如下所示: # Untracked files: # (use "git add ..." to include in what will be committed) # # Classes/Default.png # Classes/…

ぺ禁宫浮华殁 2024-09-24 10:52:16 5 0

识别(编程)语言的关键字

这是我最近的问题的后续问题( 用于识别编程的代码文本文件中的语言)。我真的很感谢我得到的所有答案,它们对我帮助很大。 我完成此任务的代码已经完…

别在捏我脸啦 2024-09-17 13:33:08 7 0

用于识别文本文件中的编程语言的代码

Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题吗?通过编辑这篇文章来更新问题,使其…

别理我 2024-09-16 16:33:44 9 0

从文件中提取特定的行集

我有许多大型(每份约 30 MB)制表符分隔的文本文件,其中行的宽度可变。我想从第 n 行(此处,n=4)和倒数第二行(最后一行为空)中提取第二个字段。…

轮廓§ 2024-09-14 19:42:54 7 0

相似文本数据的概率聚类技术?

我在各种文档上有 20,000 个公司地址,这些地址的格式都不同。例如: A公司 12345街 美国 CompanyA, Inc 街 12345 号 2 号盒子 美国华盛顿州 The Comp…

烧了回忆取暖 2024-09-14 06:45:00 4 0

快速文本预处理

在我的项目中,我通常处理文本。我发现预处理可能非常慢。所以我想问你是否知道如何优化我的代码。流程是这样的: 获取HTML页面-> (纯文本 -> 词干提…

江湖正好 2024-09-12 05:00:29 6 0
更多

推荐作者

佚名

文章 0 评论 0

羁客

文章 0 评论 0

文章 0 评论 0

夏日落

文章 0 评论 0

隐诗

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文