tokenize

tokenize

文章 0 浏览 6

字符串缩写中的转义字符不一致

我有正在尝试处理的文本。这里有 2 个例子: Example 1: An alternative way with *:

puts ["Toronto", "Maple Leafs"] * ', '
#Toronto…

月寒剑心 2025-01-10 08:14:07 1 0

Pandas 中的 LabelEncoding 在具有跨行字符串列表的列上

我想对 pandas 中的一列进行 LabelEncode,其中每行包含一个字符串列表。由于相似的字符串/文本在行中具有相同的含义,因此编码应该尊重这一点,并且…

倒数 2025-01-09 20:18:25 1 0

如何使用 inltk 标记印度语言

我使用这个 NLP 文档做到了这一点,请查看: https://inltk.readthedocs.io/en/latest/index.html from inltk.inltk import tokenize text="जो मु…

时光礼记 2025-01-09 14:54:44 2 0

在 Javascript 中使用空格分割字符串?

我需要一个分词器,给定单词之间具有任意空格的字符串将创建一个没有空子字符串的单词数组。 例如,给定一个字符串: " I dont know what you mean by…

过期以后 2025-01-08 08:11:51 2 0

初始化 ArrayList 时出错

public class driver { private static ArrayList arrayList ; TownBankRecord TBR = new TownBankRecord(); ArrayList TBList = new ArrayList(); pu…

红尘作伴 2025-01-08 07:06:07 1 0

如何在 ASPTokenInput 上预填充一些标签

您好,我正在使用 ASPTokenInput 库,从下面的 url 中找到 https://github.com/harindaka/ASPTokenInput/wiki 任何人都可以帮助我如何在页面加载和部…

可爱暴击 2025-01-07 17:30:06 1 0

如何在 C 中标记/拆分包含日期和随机数的 .csv 文件中的数据?

我正在尝试对包含随机日期和数字的 c 文件中的数据进行标记。 例如数据: Thursday,60 Tuesday,45 Wednesday,80 Monday,14 Saturday,73 Tuesday,3 Sat…

两仪 2025-01-07 14:44:59 1 0

用于引号和括号的 Boost.Tokenizer

我想使用 Boost.Tokenize 将字符串拆分为标记。要求引号或括号中的文本是一个完整的标记。更具体地说,我需要将一行分成类似的 "one (two),three" fou…

长伴 2025-01-07 13:59:42 3 0

在不使用外部库的情况下从文件中标记行的好方法?

我正在尝试标记以逗号分隔的数据库转储。我只需要读取第一个单词,它会告诉我这是否是我需要的行,然后标记该行并将每个分隔的字符串保存在向量中。 …

时光沙漏 2025-01-06 15:34:04 0 0

Java解析带有大量空格的字符串

我有一个包含多个空格的字符串,但是当我使用分词器时,它会在所有这些空格处将其分开。我需要令牌来包含这些空格。如何利用 StringTokenizer 返回带…

小ぇ时光︴ 2025-01-05 19:37:13 0 0

通过 lucene 使用预标记化文本

我的数据已经使用外部资源标记化,我想在 lucene 中使用该数据。我的第一个想法是使用 \x01 连接这些字符串,并使用 WhiteSpaceTokenizer 再次拆分它…

雨后咖啡店 2025-01-05 16:32:16 2 0

PHP json_encode token_get_all

我想以 JSON 形式返回 PHP token_get_all() 函数。 我还希望 token_get_all 通过 token_name() 传递令牌函数来获取它的名字。 我尝试了各种不同的方法…

寄风 2025-01-05 10:59:14 2 0

使用 nltk 标记 unicode

我有使用 utf-8 编码的文本文件,其中包含“ö”、“ü”等字符。我想解析这些文件中的文本,但无法让分词器正常工作。如果我使用标准 nltk 分词器: f …

陈独秀 2025-01-05 01:57:47 2 0

如何在java中实现类似C的解析器

我需要将类似 C 的脚本(实际上是 Groovy)解析为几个部分,使用“(”、“)”、“&&”和“||”作为这样的分隔符: 从字符串中 (boo == 1 && (foo == n…

甲如呢乙后呢 2025-01-04 22:52:16 3 0

在 Solr 中对 NGramFilterFactory 的结果进行标记(查询分析器)

我使用 NGramFilterFactory 进行索引和查询。 因此,如果我正在搜索“overflow”,它会创建一个如下查询: mySearchField:"ov ve ... erflow overflo …

尬尬 2025-01-04 11:14:04 2 0
更多

推荐作者

饮湿

文章 0 评论 0

明月

文章 0 评论 0

02

文章 0 评论 0

hs1283

文章 0 评论 0

风向决定发型

文章 0 评论 0

落花浅忆

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文