text-extraction

text-extraction

文章 0 浏览 6

从格式为“/dmY/H:i/”的字符串中提取日期和时间值或“/dmY/”

解释我的问题的最好方法就是向您展示。 输入字符串: /04-11-2010/12:45/ 获取日期和时间部分的正则表达式: preg_match('@/(\d\d)-(\d\d)-(\d\d\d\d)…

叹倦 2024-08-22 16:11:08 17 0

使用 Ruby 从文本中解析日期

我正在尝试弄清楚如何使用 Ruby 从非结构化文本中提取日期。 例如,我想解析此字符串“不考虑 2010 年 2 月 1 日午夜 12:00(东部标准时间)之后启动…

栀子花开つ 2024-08-21 09:32:09 16 0

获取指定标签后的 HTML 标记

如果我的字符串中有以下文本,并且我不知道 标记内有什么内容: Tom One Paragraph Two Paragraph 我需要什么代码来解析该 HTML 字符串并获得如下输出…

木有鱼丸 2024-08-20 17:26:21 10 0

获取字符第一次出现前面的数字

我有这个: 15_some_text_or_numbers; 我想获取第一个下划线前面的内容。 第一个下划线后面总是有一个字母。 示例: 14_hello_world = 14 结果是数字1…

烟若柳尘 2024-08-20 06:08:26 13 0

解析 SGML 并将其存储在 PHP 数组中

如果你能帮忙解决这个问题,你就是个天才。 基本上,我将有一些像这样的文本: jessica basketball, soccer, video games jane cooking, shopping, bo…

入画浅相思 2024-08-19 05:50:26 10 0

如何从合理的 HTML 中提取文本?

我的问题有点像这个问题,但我有更多限制: 我知道该文档相当健全, 它们非常规则(它们都来自同一来源, 我想要大约 99% 的可见文本, 大约 99% 的可…

秋日私语 2024-08-18 22:03:56 6 0

如何从 PHP 字符串中提取标题标签?

从包含大量 HTML 的字符串中,如何将 etc 标记中的所有文本提取到新变量中? 我想捕获这些元素中的所有文本并将它们作为逗号分隔值存储在新变量中。 …

世俗缘 2024-08-17 16:09:56 11 0

如何在 UNIX 上使用行号从文件中提取行?

使用 sed 或类似的方法如何从文件中提取行?如果我想要文件中的第 1、5、1010、20503 行,我该如何获取这 4 行? 如果我需要提取相当多的行怎么办? …

梦过后 2024-08-17 00:41:51 11 0

HTML 内容提取的最新技术水平如何?

有很多关于 HTML 内容提取的学术工作,例如 Gupta 和 Gupta。 Kaiser (2005) 从可访问的网页中提取内容 ,以及这里一些有趣的标志,例如 一个、两个,…

傾旎 2024-08-15 19:28:13 11 0

获取括号内的所有子字符串

我想提取两个字符(括号)之间的所有字符串。 $string = "blah blah blah (blorp) blah blah (bloop) blah blah (bam)"; 期望的输出: ['blorp', 'blo…

与风相奔跑 2024-08-13 08:00:38 9 0

有没有办法使用 Java 从 PostScript(.ps、.eps)文件中提取文本?

我正在寻找类似于 PDFBox 的 Apache Tika PDF 解决方案,但适用于 PS 文件。 谢谢。…

2024-08-11 08:02:37 3 0

通过排除导航和 Chrome 内容从 HTML 页面中提取纯内容/文本

我正在抓取新闻网站,想要提取新闻标题、新闻摘要(第一段)等, 我插入了 webkit 解析器代码,以轻松地以树形式导航网页。为了消除导航和其他非新闻…

沧桑㈠ 2024-08-10 16:28:01 14 0

从 HTML Java 中提取文本

我正在开发一个程序,该程序下载 HTML 页面,然后选择一些信息并将其写入另一个文件。 我想提取段落标签之间的信息,但我只能获取段落的一行。我的代…

缱绻入梦 2024-08-03 13:14:34 15 0

按主题搜索并从维基百科的文章中提取关键字

我正在用java做一个项目,其中我必须处理维基百科转储文件。我正在寻找一个库来提取维基百科文章中的关键字...基本上我想阅读维基百科 xml 转储中的每…

独孤求败 2024-08-03 04:55:35 11 0

从 PHP 中的分隔字符串中提取浮点数

我想将一串分隔的维度值转换为浮点数。 例如, 152.15 x 12.34 x 11mm 存储在 152.15, 12.34 and 11 数组中: $dim[0] = 152.15; $dim[1] = 12.34; $d…

旧人 2024-07-24 06:49:11 10 0
更多

推荐作者

尘曦

文章 0 评论 0

善良天后

文章 0 评论 0

韬韬不绝

文章 0 评论 0

qq_CgiN62

文章 0 评论 0

不美如何

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文