第 4 页 - text-extraction

text-extraction

文章 0 浏览 6

php中的pdf文本提取器类

php 中是否有任何可用的类可以从 pdf 文件中提取所有文本，以便我可以将其存储在 mysql 数据库中。我的pdf有很多元素，如图像、表格、纯文本、表单元…

眼眸印温柔 2024-11-17 20:17:10 3 0

匹配所有以空格分隔的“单词”至少包含 1 个字母和 1 个数字，并且可以包含斜杠和连字符

我有以下字符串： SEDCVBNT S800BG09 7GFHFGD6H 324235346 RHGF7U S8-00BG/09 7687678 和以下正则表达式： preg_match_all('/\b(?=.+[0-9])(?=.+[A-Z]…

不醒的梦 2024-11-16 22:11:31 6 0

从 HTML 文档中严格格式化的字符串中提取数值

我有几个字符串是使用 cURL 从另一个网站提取的。该字符串本身包含整个页面的 HTML 结构，但每个页面内都有一个段落，如下所示：显示以 A 或开头的 …

风透绣罗衣 2024-11-15 08:39:20 5 0

从字符串中提取单个（无符号）整数

我想从包含数字和字母的字符串中提取数字，例如： "In My Cart : 11 items" 我想提取数字11。…

没企图 2024-11-14 14:06:54 3 0

从 XML 文件中提取 CDATA 内容

我正在尝试解析 PHPIDS 的 XML 规则列表（可在其网站 http://phpids.org/ 上下载），反对使用 XML 的正则表达式输入的 URL。现在，我对正则表达式知…

野鹿林 2024-11-11 18:31:30 4 0

从给定坐标提取 PDF 文本

我想使用 Ghostscript 从 PDF 的一部分（使用坐标）中提取文本。有人可以帮我吗？…

秋心╮凉 2024-11-10 08:51:57 9 0

挖掘数据库以提取Python中的文本字段

我有一个数据库，我试图从中提取某些信息。逻辑结构是这样的： gc;查询英尺； NAME（需要此字段） fd； SEQUENCE（需要此字段） fd；序列 ...（更多…

心欲静而疯不止 2024-11-08 02:45:13 3 0

获取多行中出现的不同子字符串之间的所有匹配项

我的 reg 表达式有一个奇怪的问题。我试图在这样的字符串中获取产品名称： #T55.08 #J60.91 #M1/1 #YT102/0///Tie #G #T55.08 #J60.91 #M1/1 #YT102/…

我很坚强 2024-11-07 22:59:47 4 0

如何通过PHP从字符串中获取子字符串？

我想更改 [email protected] 仅限 abcd。为此，我应该剪辑从 @ 开始的部分。我可以通过 Java 或 C# 中的 variablename.substring() 函数轻松完成此…

忘羡 2024-11-02 23:35:19 6 0

从网站中提取正文文本，例如仅提取文章标题和文本，而不是网站中的所有文本

我正在寻找允许从网站提取文本的算法。我的意思不是“剥离 html”，也不是数百个允许这样做的库中的任何一个。例如，对于一篇新闻文章，我想识别标题…

瑾兮 2024-11-02 17:38:11 9 0

获取两个字符之间的数字

我试图在如下字符串中找到两个下划线 (_) 之间的数字： 234534_45_92374 3433_9458_034857 zx_8458_047346daf What would be the regex for this?…

杀手六號 2024-11-01 23:26:18 7 0

如何从 .doc 和 .doc 中提取纯文本.docx 文件？

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

南烟 2024-11-01 16:16:22 12 0

帮助提取类 C 语言中匹配大括号之间的文本块

我有一些为 HDF5 文件格式制作的文档，它是用 GraphViz 点语言编写的。（这是一种类似 C 的语言，有很多花括号。）这个主文件包含许多这样的元素： s…

作死小能手 2024-10-28 09:13:01 7 0

使正则表达式的尾部部分可选

我正在使用以下正则表达式来匹配下面的字符串，到目前为止一切顺利。现在，我如何使 BAZ 的内容成为可选，以便它与 BAZ () 的情况匹配？ $str = '- 10…

苦妄 2024-10-22 05:26:02 8 0

使用 Tika 从 .tex 文件中提取文本

如何使用 Apache Tika 从 .tex 文件中提取文本？示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Tika 能够正确检测内容类型为 app…

梅倚清风 2024-10-22 03:37:44 9 0

共 9 页
上一页
2
3
4
5
6
下一页

友情链接

文江博客