tokenize

tokenize

文章 0 浏览 6

在 Javascript 中使用正则表达式对字符串进行标记

假设我有一个包含换行符和制表符的长字符串: var x = "This is a long string.\n\t This is another one on next line."; 那么我们如何使用正则表达…

若水微香 2024-12-20 20:12:56 3 0

lucene:使 StandardTokenizer 适应 Twitter 数据

我需要调整 lucene 的 StandardTokenizer 以适应有关 twitter 数据的一些特殊目的。目前,我使用 StandardTokenizer 来标记一些我想要处理的推文。它…

眼泪淡了忧伤 2024-12-20 18:59:18 0 0

在 Objective-C 中对多个字符标记字符串

我正在尝试构建一个可以对多个字符进行标记的字符串标记器。 我知道我可以使用: [字符串组件SeparatedByString:@"-"]; 但我想检查空格、破折号和换行…

慈悲佛祖 2024-12-19 09:13:49 1 0

XSL:for 循环中的标记化问题

我使用以下样式表在 Excel 工作簿中显示包含数据的表格。我无法获得所需的结果,而是显示的结果与下面给出的不同。 请提出建议? 使用的样式表: 预期…

も星光 2024-12-19 01:08:39 1 0

如何使用 CFStringTokenizer 处理中文和日文?

我使用代码此处来分割文本分成单独的单词,它对于我尝试过的所有语言都非常有效,除了日语和中文。 有没有一种方法可以调整代码以正确标记日语和中文…

半﹌身腐败 2024-12-17 22:27:24 2 0

将电子邮件地址读取为令牌

如何读取电子邮件地址作为令牌? 我看到 tokenizer 方法有 16 位长度的限制,我的令牌是这样的: command [email protected] 50 我希望能够存储电子邮…

温暖的光 2024-12-17 13:46:10 4 0

在 Vector 上进行 push_back 时设置精度

我正在逐行读取 CSV,并对每个逗号分隔值进行标记。每个标记都是字符串类型。我将它放入 float 类型的向量中。在下面的示例中,如果 csv 中的值是 "0.…

风吹雨成花 2024-12-17 06:44:44 3 0

从文本 blob 中检测名字和姓氏的最佳方法

我正在开发一个程序,该程序对美国名片进行 OCR 并尝试返回名字、姓氏等信息。挑战在于如何做到这一点。 到目前为止,我已经构建了以下数据文件: fir…

樱花细雨 2024-12-17 05:10:41 3 0

prolog 中的字符串标记化

我在文本文件“grammar.txt”中有以下上下文无关语法, S ::= a S b S ::= [] 我打开该文件并能够读取序言中的每一行。 现在我想标记每一行并生成一个…

_蜘蛛 2024-12-17 04:20:56 3 0

正确的 Solr Tokenizer 可以在保留特殊字符的同时对文本进行标记

哪个标记器适合执行此操作: input: "This-something is something." output: ["] [This] [-] [something] [is] [something] [.] ["] 我尝试使用 solr…

只为守护你 2024-12-16 01:30:33 5 0

如何制作文本文件(或其他文档)解析器?

我有以下任务要做:填充拼写检查字典(简单的txt文件)我需要解析器 它应该: - 在文本文件(或其他类型的文档)中解析,提取 每个单词,然后使用简单…

假情假意假温柔 2024-12-14 16:15:19 2 0

java 分割字符串

在Java中,如果我有一个具有这种格式的字符串: ( string1 , string2 ) ( string2 ) ( string4 , string5 , string6 ) [s2] 如何拆分字符串以获得这样…

怂人 2024-12-14 08:47:25 1 0

如何在 XSL 中标记字符串并使用 for-each 迭代标记?

可能的重复: xslt有split()函数吗? 我想标记逗号分隔的变量我的 XSL 样式表,然后使用 for-each 迭代标记以打印每个标记的值,执行此操作的最佳方…

坏尐絯 2024-12-13 18:37:30 3 0

分词器将字符串转换为浮点数

我想在 C++ 中将字符串转换为浮点数。目前正在尝试使用atof。非常感谢任何建议。 他们的身份是: 2.22,2.33,2.44,2.55 最后,我希望临时数组看起来像…

调妓 2024-12-12 20:57:29 1 0

Boost::tokenizer 逗号分隔 (c++)

对你们来说应该是一个简单的...... 我正在使用 Boost 玩标记器,我想创建一个以逗号分隔的标记。这是我的代码: string s = "this is, , , a test"; b…

故笙诉离歌 2024-12-12 11:33:53 1 0
更多

推荐作者

饮湿

文章 0 评论 0

明月

文章 0 评论 0

02

文章 0 评论 0

hs1283

文章 0 评论 0

风向决定发型

文章 0 评论 0

落花浅忆

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文