text-processing

text-processing

文章 0 浏览 6

一次性将不同的列剪切到不同的文件中

我有一些巨大的 gz 文件。我需要提取不同的列并将它们放入不同的文件中。 我当然可以多次传递该文件,并每次剪切不同的列。 但这是可以一次性完成的。…

我一向站在原地 2024-12-11 20:36:04 1 0

使用 shell 脚本查找函数参数的数据类型 - 文本处理

我有一个带有如下函数签名的文件: void Something(float a, int b, char c); 使用 shell 脚本或类似的文件,您将如何处理它,以便最终得到: 浮点整…

一抹微笑 2024-12-10 12:21:29 2 0

在 *nix 环境中,如何将列分组在一起?

我有以下文本文件: A,B,C A,B,C A,B,C 有没有办法使用标准 *nix 工具(cut、grep、awk、sed 等)来处理这样的文本文件并获得以下输出: A A A B B B …

夏夜暖风 2024-12-09 03:56:08 5 0

strtok() 的问题

我已经为此苦苦挣扎了一段时间。我知道有很多代码需要查看,但我不知道问题出在哪里,并且似乎无法缩小范围。我会赏金它。 我写这个类是为了解析 bbco…

等风也等你 2024-12-09 01:45:19 4 0

从列表列表中提取部分重复项;返回单个匹配项以及每个重复项的来源记录; Python

我有一个以下格式的列表: L = ['apples oranges x', 'bananas apples y', 'apples oranges z'] 对于 L 中的每个项目,如果 item.split()[0:2] 与另一…

眼眸里的快感 2024-12-07 20:39:25 1 0

在 Emacs 中运行宏直到文本文件末尾

我有一个文本文件,其中包含一些示例内容,如下所示: Sno = 1p Sno = 2p Sno = 3p 我想要的是从每列中删除 p 。 出于这个目的,我编写了一个宏: M-x…

幸福不弃 2024-12-06 07:43:53 3 0

将文档从 PDF 转换为文本时如何处理 unicode 字符编码问题

我正在尝试从 PDF 中提取文本。 PDF 包含印地语 (Unicode) 文本。我使用的提取实用程序是 Apache PDFBox (http://pdfbox.apache.org/)。提取器提取文…

怪我鬧 2024-12-05 15:19:13 6 0

Sed:使用找到的字符串作为变量

我正在寻找一种方法来替换表单的所有实例: model->variable 其中 models[variable][index] 变量几乎可以是字母和数字的任意组合,可能定义为 [0-9a-Z…

↘人皮目录ツ 2024-12-05 08:20:57 3 0

当预定义类别不可用时如何对文本进行分类

我有一个问题,不知道必须应用哪种算法。 我正在考虑在情况二中应用聚类,但不知道情况一: 我有 50 万份信用卡活动文档。每个文档都有明确的定义,每…

安稳善良 2024-12-04 10:20:39 4 0

解析数字列表的最佳方法

我有一个问题,我需要处理一个数字列表,该列表将在英语句子中。它可以采用以下格式: 项目 1、2 和 3 项目 2 到 5 项目 1 到 20 项目 4 或 8 我最初…

三生池水覆流年 2024-12-04 04:13:32 0 0

从大文本中解析数字,可能不需要正则表达式(性能关键)

在你们开始用以下变体回答之前,我对正则表达式非常熟悉: /d+ 我想知道是否有正则表达式的替代方法来解析大型文本文件中的数字。 我正在解析大量的大…

自演自醉 2024-12-03 22:52:20 3 0

多行模式匹配

问题: 在一个大文件(纯文本)中,有一些“有趣”的行包含一些特定的单词。目的是提取包含这些单词的所有行。然而,在某些情况下,即使一行包含此类…

只有影子陪我不离不弃 2024-12-03 11:16:57 2 0

检查元素是否在同一段落中(美丽的汤)

如何检查 BeautifulSoup 解析树的元素是否在同一个 标记中?…

旧城空念 2024-12-02 16:01:10 1 0

寻找中等强度的哈希函数

我有一组静态的约 35000 个唯一的 ASCII 文本字符串,每个字符串从 20 到 60 个字节。我想在其中引入一个唯一索引。由于各种原因,简单地编号是不可取…

梦屿孤独相伴 2024-12-02 02:44:23 0 0

Python 或命令行实用程序 - 排序和过滤文件?

给定以下形式的数据: a b 1.1 c d 2.3 b a 1.1 是否可以根据第三列对此类文件进行排序,并删除第三列中重复条目的行,以便输出为: a b 1.1 c d 2.3 …

漫漫岁月 2024-12-01 15:46:01 2 0
更多

推荐作者

qq_2gSKZM

文章 0 评论 0

∞梦里开花

文章 0 评论 0

qq_IklFPL

文章 0 评论 0

迷途知返

文章 0 评论 0

深海不蓝

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文