text-extraction

text-extraction

文章 0 浏览 6

php中的pdf文本提取器类

php 中是否有任何可用的类可以从 pdf 文件中提取所有文本,以便我可以将其存储在 mysql 数据库中。我的pdf有很多元素,如图像、表格、纯文本、表单元…

眼眸印温柔 2024-11-17 20:17:10 3 0

匹配所有以空格分隔的“单词”至少包含 1 个字母和 1 个数字,并且可以包含斜杠和连字符

我有以下字符串: SEDCVBNT S800BG09 7GFHFGD6H 324235346 RHGF7U S8-00BG/09 7687678 和以下正则表达式: preg_match_all('/\b(?=.+[0-9])(?=.+[A-Z]…

不醒的梦 2024-11-16 22:11:31 6 0

从 HTML 文档中严格格式化的字符串中提取数值

我有几个字符串是使用 cURL 从另一个网站提取的。该字符串本身包含整个页面的 HTML 结构,但每个页面内都有一个段落,如下所示: 显示以 A 或 开头的 …

风透绣罗衣 2024-11-15 08:39:20 5 0

从字符串中提取单个(无符号)整数

我想从包含数字和字母的字符串中提取数字,例如: "In My Cart : 11 items" 我想提取数字11。…

没企图 2024-11-14 14:06:54 3 0

从 XML 文件中提取 CDATA 内容

我正在尝试解析 PHPIDS 的 XML 规则列表(可在其网站 http://phpids.org/ 上下载),反对使用 XML 的正则表达式输入的 URL。 现在,我对正则表达式知…

野鹿林 2024-11-11 18:31:30 4 0

从给定坐标提取 PDF 文本

我想使用 Ghostscript 从 PDF 的一部分(使用坐标)中提取文本。 有人可以帮我吗?…

秋心╮凉 2024-11-10 08:51:57 9 0

挖掘数据库以提取Python中的文本字段

我有一个数据库,我试图从中提取某些信息。 逻辑结构是这样的: gc;查询 英尺; NAME(需要此字段) fd; SEQUENCE(需要此字段) fd;序列 ...(更多…

心欲静而疯不止 2024-11-08 02:45:13 3 0

获取多行中出现的不同子字符串之间的所有匹配项

我的 reg 表达式有一个奇怪的问题。 我试图在这样的字符串中获取产品名称: #T55.08 #J60.91 #M1/1 #YT102/0///Tie #G #T55.08 #J60.91 #M1/1 #YT102/…

我很坚强 2024-11-07 22:59:47 4 0

如何通过PHP从字符串中获取子字符串?

我想更改 [email protected] 仅限 abcd。 为此,我应该剪辑从 @ 开始的部分。 我可以通过 Java 或 C# 中的 variablename.substring() 函数轻松完成此…

忘羡 2024-11-02 23:35:19 6 0

从网站中提取正文文本,例如仅提取文章标题和文本,而不是网站中的所有文本

我正在寻找允许从网站提取文本的算法。我的意思不是“剥离 html”,也不是数百个允许这样做的库中的任何一个。 例如,对于一篇新闻文章,我想识别标题…

瑾兮 2024-11-02 17:38:11 9 0

获取两个字符之间的数字

我试图在如下字符串中找到两个下划线 (_) 之间的数字: 234534_45_92374 3433_9458_034857 zx_8458_047346daf What would be the regex for this?…

杀手六號 2024-11-01 23:26:18 7 0

如何从 .doc 和 .doc 中提取纯文本.docx 文件?

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

南烟 2024-11-01 16:16:22 12 0

帮助提取类 C 语言中匹配大括号之间的文本块

我有一些为 HDF5 文件格式制作的文档,它是用 GraphViz 点语言编写的。 (这是一种类似 C 的语言,有很多花括号。)这个主文件包含许多这样的元素: s…

作死小能手 2024-10-28 09:13:01 7 0

使正则表达式的尾部部分可选

我正在使用以下正则表达式来匹配下面的字符串,到目前为止一切顺利。现在,我如何使 BAZ 的内容成为可选,以便它与 BAZ () 的情况匹配? $str = '- 10…

苦妄 2024-10-22 05:26:02 8 0

使用 Tika 从 .tex 文件中提取文本

如何使用 Apache Tika 从 .tex 文件中提取文本?示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Tika 能够正确检测内容类型为 app…

梅倚清风 2024-10-22 03:37:44 9 0
更多

推荐作者

饮湿

文章 0 评论 0

明月

文章 0 评论 0

02

文章 0 评论 0

hs1283

文章 0 评论 0

风向决定发型

文章 0 评论 0

落花浅忆

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文