是否有机器学习或NLP模型可以在原始文本中分开问题和答案?
我有一些原始文本,其中有问题和答案。我想确定文本的哪些部分是问题,哪些部分是答案。这似乎很容易,但是问题不一定会因问号而终止。我唯一可以肯定…
将选项卡从文本文件划定到python中的2个变量时出错
我有一个文本文件,其中标签将数据划分为2个语言翻译,如下所示; to the regimes thanthrayanta according to the anuwa great maha situation thath…
从大熊猫数据框架中可视化最常见的术语的WordCloud
我有一个像这样的大熊猫数据框的子集: df = pd.DataFrame({index: [0,1,2]}, {viz_words: ['palace boat painting reel', ['paintings painting gall…
随着时间的流逝,单词频率:如何按日期计数单词频率?
我有一个数据框架,例如: 日期 文本 201901 谢谢您帮助我 201902, 您的 201902 帮助您帮助了这一点 ,我的目的是计算每行频率,最终看起来像这样: …
需要使用标签工作室创建FUNSD数据集
有什么方法可以使用LabelStudio创建FUNSD数据集? 我已经使用PytessSeract对PDF 进行了OCR ,但我不确定在JSON文件上需要进行哪种帖子预处理,以…
使用Pyspark CountVectorizer获取顶部关键字
我想使用 pyspark.ml.feature.countvectorizer 。提取关键字。 我的输入火花数据帧看起来如下: ID 文本 1 太阳,火星,太阳系,太阳系,太阳系,火星…
在gpu上在TensorFlow中服用FFT2D时的错误
下面的代码在CPU上运行没有任何问题,但是当我更改为Colab中的GPU时,它无法计算FFT2D。 import tensorflow as tf sample_fft_input = tf.random.unif…
将Specfic JSON数据转换为Python中的TXT文件
因此,我目前有一个以这种格式的JSON文件, {"doc": "small-grains-report_2019.pdf", "url": "https://www.uidaho.edu/-/media/UIdaho-Responsive/Fi…
可以为NLP任务安装Spacy
我正在尝试为NLP任务安装Spacy,但是当我从( pip install -u pip setuptools wheel )我在下面获取错误。我相信我的错误可能来自我为笔记本电脑创建…
试图设置矛盾的文档:'(4708,4717,'公司在')' (4681,4717,')'
[在此处输入图像描述] [1] 尝试设置冲突的文档。令牌只能是一个实体的一部分,因此请确保您设置的实体不要重叠。要与重叠的实体一起工作,请考虑使用d…
R-如何计算DF行中的所有单词并将输出添加到新列中?理想情况下,使用整理或平淡的文本
我正在尝试在文本中找到单词的位置,也是同一文本的总词尺寸。 # library(tidyverse) # library(tidytext) txt<-tibble(text=c("we're meeting here t…
从r中删除文字中的停止单词
我在从文本数据中删除stop_words有问题。数据集被网络刮擦并包含客户评论,看起来像: data$Review <- c("Won't let me use my camera", "Does not lo…
分析最常见的n-gram
美好的一天, 我一直在研究NLP,并遇到了最高n-gram提取的该代码: def get_top_tweet_bigrams(corpus, n=None): vec = CountVectorizer(ngram_range=…
无法在APOC NLP中调用程序
我试图运行此代码&amp;每次我遇到相同的错误。我尝试了Google API和Azure,但都返回类似的错误。 匹配(A:文章) 致电apoc.nlp.gcp.entities.graph…