tokenize

tokenize

文章 0 浏览 6

Solr WordDelimiterFilter + Lucene 荧光笔

我正在尝试从 Lucene 获取 Highlighter 类,以便与来自 Solr 的 WordDelimiterFilter 的标记正常工作。它在 90% 的情况下都有效,但如果匹配文本包含…

自由如风 2024-10-09 23:19:41 10 0

在 c 中使用 strtok() 将字符串标记两次

我在 c 中使用 strtok() 来解析 csv 字符串。首先,我对其进行标记以找出有多少标记,以便我可以分配正确大小的字符串。然后我使用上次用于标记化的相…

兮子 2024-10-09 13:19:45 9 0

使用 ANT 替换基于属性文件的所有令牌

我很确定这是一个简单的问题,而且我之前也见过这个问题,但没有可靠的答案。 我有几个用于不同环境的属性文件,即 xxxx-dev、xxxx-test、xxxx-live …

橘虞初梦 2024-10-08 21:39:58 8 0

从输入文件中逐行输入并使用 strtok() 进行标记化,并将输出放入输出文件中

我想做的是逐行输入文件并标记并输出到输出文件中。我能够做的是输入文件中的第一行,但我的问题是我无法输入下一行行标记化,以便可以将其保存为输出…

谜兔 2024-10-05 15:43:14 5 0

日语的空白字符是什么?

我需要分割一个字符串并提取由空格字符分隔的单词。源代码可能是英语或日语。英语空白字符包括制表符和空格,日语文本也使用这些字符。 (IIRC,所有…

孤单情人 2024-10-05 02:27:24 10 0

C# 编程如何标记间距和“,”通过正则表达式?

我有一个 C# 程序,它接收日志字符串并尝试将其标记为各种数组。 用于示例的字符串为“Tue Oct 26 2010 23:48:54,664,macb,d/drwxrwxrwx,0,0,33-144-1…

墨小沫ゞ 2024-10-04 05:31:17 3 0

C# 编程 如何不使用正则表达式过滤目录中的空间?

我有一个程序,它利用 tokenize 和正则表达式从日志文件字符串中过滤掉空格('')和“,”。 但是,由于日志文件字符串目录中存在空格,因此有人可以…

﹎☆浅夏丿初晴 2024-10-04 02:44:53 5 0

C# 从数组中选择不同的名称

我想知道如何从数组中仅选择不同的名称。 我所做的是从包含许多不相关信息的文本文件中读取。 我当前代码的输出结果是一个名称列表。我只想从文本文件…

夜唯美灬不弃 2024-10-03 18:21:22 10 0

标记字符串 C++编译器/逻辑错误

在下面的第一行代码中我得到了这个 错误:无法将参数 '1' 的 'std::string' 转换为 'char*' 到 'char* strtok(c​​har*, const char*)' void ToToken…

笑咖 2024-10-03 06:37:36 3 0

如何根据数字/非数字分割字符串(使用正则表达式?)

我想在 python 中将一个字符串拆分为一个列表,具体取决于数字/而不是数字。 例如, 5 55+6+ 5/ 应该返回 ['5','55','+','6','+','5','/'] 我目前有一…

呢古 2024-10-03 01:34:35 6 0

sqlplus 传递一个包含 ' 的字符串'例如“索引1”、“索引2”、“索引3”

我需要将此值传递给我的 sql 文件,因为我正在执行带有 IN 的 where 条件。 例如:Delete FROM table WHERE col IN ('index1','index2','index3') 遇…

迷乱花海 2024-10-02 21:37:02 7 0

来自字符串的 PHP 令牌

假设您有一个如下所示的字符串: token1 token2 tok3 并且您想要获取所有标记(特别是空格之间的字符串),以及它们的位置(偏移量)和长度)。 所以…

紫﹏色ふ单纯 2024-10-02 09:16:23 4 0

在 C 中标记空白字符

我正在尝试用多个空格标记一个字符串。例如,"yes___no",其中下划线是空格。使用 strtok(string, " "); 但我遇到了 seg 错误,经过调试,我在标记第…

紫瑟鸿黎 2024-10-01 23:08:48 6 0

在数据库中存储标记化文本?

我有一个简单的问题。我正在进行一些轻微的爬行,因此每隔几天就会有新内容到达。我编写了一个分词器,并希望将其用于某些文本挖掘目的。具体来说,我…

败给现实 2024-10-01 20:04:03 10 0

StreamTokenizer 将 001_to_003 拆分为两个令牌;我怎样才能阻止它这样做?

Java的StreamTokenizer在识别数字方面似乎太贪婪了。它的配置选项相对较少,而且我还没有找到让它执行我想要的操作的方法。以下测试通过,IMO 显示了…

_失温 2024-10-01 15:40:02 9 0
更多

推荐作者

少女净妖师

文章 0 评论 0

朱洁

文章 0 评论 0

觉浅

文章 0 评论 0

滥情空心

文章 0 评论 0

hl1314520

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文