tokenize

tokenize

文章 0 浏览 4

这个 Lucene TokenFilter 有什么问题吗?

免责声明:过去 41 小时中,我有 36 个小时都在编码。我头疼。我不明白为什么这个组合 TokenFilter 返回 2 个令牌,都是来自源流的第一个令牌。 publi…

你与清晨阳光 2024-12-04 00:02:28 0 0

标记的类层次结构并在解析器中检查它们的类型

我正在尝试编写一个可重用的解析库(为了好玩)。 我编写了一个 Lexer 类,它生成一个 Tokens 序列。 Token 是子类层次结构的基类,每个子类代表不同…

煞人兵器 2024-12-03 21:50:21 0 0

Solr 分词器注入

作为示例,我有一个文本字段,可能包含以下字符串: “d7199^^==^^81^^==^^一两个句子!!” 我想标记此数据,但让每个标记包含字符串的第一部分。因…

吐个泡泡 2024-12-01 11:07:53 0 0

字符串到标记序列

我正在解析命令序列字符串,需要将每个字符串转换为一个 string[],该字符串将按照读取的顺序包含命令标记。 原因是这些序列存储在数据库中,以指示协…

第七度阳光i 2024-11-30 23:41:13 0 0

对复杂输入进行标记

我正在尝试在 Python 中标记以下输入: text = 'This @example@ is "neither":/defn/neither complete[1] *nor* trite, *though _simple_*.' 我想生成…

情未る 2024-11-30 20:41:17 0 0

C 中的字符串分词器

下面的代码将使用空格(即“”)和句号(即“”)来分解字符串命令。如果我想使用空格和句号的出现(同时)而不是单独使用它们来分解命令,例如:“he…

玉环 2024-11-30 18:31:30 1 0

如何在 ParseKit 中匹配从文字到行尾的所有内容?

我正在尝试使用 ParseKit 在 Objective-C 中开发 UCI 解析器,但我需要一种方法匹配从文字到行尾的所有内容(可能减去尾随空格)。 例如,我要解析的…

作妖 2024-11-30 11:25:27 1 0

bash 问题中的字符串标记化

tokens='a,b' IFS=',' read -ra a <<<$tokens for i in "${a[@]}"; do echo "$i |" done 输出 a b | 但 IFS=',' read -ra a <<<'a,b' for i in "${a[…

淡水深流 2024-11-30 06:44:34 0 0

处理 BNF 语法中的歧义

我正在尝试为我正在 .NET 中使用 Irony 构建的 DSL 构建一个解析器,但发现了一个我找不到解决方法的问题。由于它处理 BNF,我认为任何 BNF 解决方案…

白云悠悠 2024-11-30 00:54:33 1 0

Android 上的 SQLite 是否使用支持 FTS 的 ICU 标记生成器构建?

就像标题所说:我们可以使用...USING fts3(tokenizer icu th_TH, ...)。如果可以的话,有谁知道支持哪些区域设置,以及它是否因平台版本而异?…

抹茶夏天i‖ 2024-11-29 17:00:44 0 0

为 Flex 定义了 C 令牌文件?

我想将一个C文件分割成标记,不是为了编译而是为了分析。我觉得这应该非常简单,并尝试在线查找已定义的所有 C 语法的 Flex 文件,但找不到任何内容。…

那些过往 2024-11-29 13:29:48 0 0

*str 和 atoi(str) 之间的区别

我进行了标记化,并在文本文件(已被读入数组“store”中)上使用了带有分隔符“=”的 strtok, 因此文件中有一条语句:TCP.port = 180 我做到了: st…

调妓 2024-11-29 01:09:52 1 0

修复 php 标记化模式

我有一个 Perl 脚本,它标记一个字符串 @s=split /([^a-zA-Z \t\-\'\,\.]+)/, $_[0]; # tokenized with separators ,因此如果我有一个字符串 $s="The…

野鹿林 2024-11-28 07:04:12 0 0

标记带引号的字符串

我正在尝试标记字符串。只要没有引号字符,一切都很好: string:tokens ("abc def ghi", " "). ["abc","def","ghi"] 但是 string:tokens/2 确实对带引…

骑趴 2024-11-27 20:35:23 1 0

如何在没有 boost 的情况下标记字符串?

我正在 C++ 工作。我有以下字符串: 2011-07-01T14:32:39.1846579+02:00 有人能告诉我如何在另一个字符串中提取 2011-07-01 14:32 吗?…

豆芽 2024-11-27 01:18:25 1 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文