删除标记之前的数字,标点,白色空间
我从以前的编码帮助中拥有以下数据框架 report <- data.frame(Text = c("unit 1 crosses the street", "driver 2 was speeding and saw driver# 1", "…
row_sums vs findfreqterms用于子集termdocmatrix以包含具有给定最小频率的单词
我的问题很简单。我有一个(二进制)TDM,我想减少至少两个文档中出现的行的行数: 我认为这两种方法会在二进制矩阵中产生相同的结果: > rowTotals =…
土耳其人物问题在绘制图形的图表时问题
我有一个数据集,其中包括土耳其语的推文。我正在尝试使用TM软件包进行文本挖掘,并使用IGRAPH R软件包绘制网络。 library(tm) #build corpus corpus …
如何添加目标变量来查看句子属于数据1还是数据2?
我正在从事一个项目。我想用类似情况来总结它。我需要收集n个带有不同HASTAG的推文。 这是类似的代码: library(tm) #tweets from first hastag tweet…
从 R 中的文档术语矩阵恢复原始数据
我想知道在将其制作为文档术语矩阵后是否有办法返回到我的原始数据库(df)。 这是我想做的一个例子。 df <- data.frame(group=c("A","A","B","B","C"…
在 tm DocumentTermMatrix 中包含短标记
编辑:这是工作区中的对象发生冲突并导致意外行为的问题。 我正在尝试使用以下代码从文档创建 DocumentTermMatrix。该文档包含许多 1 字符和 2 字符标…
tm 包错误“由于向量太大,无法将 DocumentTermMatrix 转换为普通矩阵”
我创建了一个 DocumentTermMatrix,其中包含 1859 个文档(行)和 25722 个文档(列)。为了对该矩阵进行进一步计算,我需要将其转换为常规矩阵。我想…
R 文本挖掘包 DocumentTermMatrix 在控制列表中带有字典,占用太多内存
Closed. This question needs details or clarity. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章添加详细信息并澄清…
- 共 1 页
- 1