stop-words

stop-words

文章 0 浏览 5

仅当在 python 2 中执行停用词删除时,标记化步骤中出现 Unicode 错误

我正在尝试运行此脚本:在此处输入链接描述 (唯一的区别是,我需要读取我的数据集(列文本),而不是这个 TEST_SENTENCES 。唯一的事情是,我需要先…

平安喜乐 2025-01-12 01:16:09 1 0

停用词功能

我有这个函数,如果在数组 $stopwords 中找到一个坏词,它会返回 true, function stopWords($string, $stopwords) { $stopwords = explode(',', $sto…

好多鱼好多余 2025-01-03 00:48:43 0 0

将停用词放入字符串中

我想在 PHP 中创建一个函数,当它发现字符串中有一些坏词时,它会返回 true。 这是一个示例: function stopWords($string, $stopwords) { if(the wor…

白首有我共你 2025-01-02 12:05:02 1 0

Lucene:在标记流时如何保留空格等?

我正在尝试执行某种文本流的“翻译”。更具体地说,我需要对输入流进行标记,在专门的字典中查找每个术语并输出标记的相应“翻译”。但是,我还想保留…

陌伤浅笑 2024-12-27 09:13:24 2 0

使用 matlab 从文件中读取文本时跳过某些单词

我创建了一个 matlab 程序来查找文本文件中的单词二元组及其频率。为此,我使用 textread 函数创建了一个字符串元胞数组: unigrams = textread('file…

£冰雨忧蓝° 2024-12-23 12:19:07 3 0

去除常见英语单词策略

我想从 html 页面中提取相关关键字。 我已经放弃了所有 html 内容,将文本拆分为单词,使用词干分析器并从 lucene 中删除了停用词列表中出现的所有单…

梦里南柯 2024-12-06 08:15:34 6 0

自动标记文本(例如博客文章或新闻文章)的软件?

我正在寻找一款可以执行以下操作的软件: 处理 100-1k 字左右的大量文章; 自动删除停用词; 根据剩余单词推荐最佳标签,即本文全部关于“汽车、变速…

南…巷孤猫 2024-12-05 12:13:57 3 0

使用 grep 从停用词文件中过滤掉单词

我想将 grep 与停用词文件一起使用来从另一个文件中过滤掉常见的英语单词。文件“somefile”每行包含一个单词。 cat somefile | grep -v -f stopwords…

放手` 2024-12-03 17:49:32 6 0

删除 Java 中的停用词 --- 需要帮助

我使用一种方法来删除文件中定义的停用词,这将从我传递给该方法的查询字符串中删除这些单词...代码工作正常 现在我需要做的是...如果查询字符串只包…

薄荷→糖丶微凉 2024-12-01 10:22:40 8 0

Sql Server 2008 不会忽略全文短语查询中的干扰词?

假设我们有一个带有全文字段的表。该字段称为文本。该表的内容为: car wash car and wash 单词 and 位于我的 stoplist 中 现在,我将使用以下 sql 查…

夏尔 2024-11-26 21:33:10 5 0

将未标记语料库转换为标记语料库 (NLTK)

我有一个纯文本语料库,我想标记并保存它,以便我可以进一步使用它。最好的方法是什么? 我已经制作了标记器,但我无法找到一种方法来更改不混乱的语…

北城挽邺 2024-11-25 16:53:58 4 0

Sql Server 2008 - 从系统停止列表中删除一个单词?

我试图从停用词列表中删除“-”字符,但我做不到。我创建了继承自系统停止列表的自定义停止列表。当我尝试从停止列表中删除“-”时,sql server 告诉…

如果没结果 2024-11-19 12:46:53 6 0

Sql Server 2008 - 如何避免使用字符“/”是一个停用词?

假设我们有一个大型全文索引表,并且有一些类似的字符串(当然,在全文索引列中): 123.456.789/14 111.222.22222.2/5111 这些字符串是只有在完全按…

梦里泪两行 2024-11-18 21:39:49 6 0

如何使用 SQL 获取 MySQL 停用词

我知道可以借助 MySQL 中的 ft_stopword_file 变量来更改停用词文件。但我需要将这些停用词读入 PHP 的数组中。所以我的问题是, 有没有办法通过使用 …

挽心 2024-11-18 13:16:31 6 0

为什么这些词被视为停用词?

我没有自然语言处理的正式背景,想知道 NLP 方面的人是否可以对此有所了解。我正在使用 NLTK 库,并且专门研究了此包提供的停用词功能: 在[80]中: n…

半边脸i 2024-11-17 05:17:01 7 0
更多

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待"谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文