nlp

nlp

文章 19 浏览 260

是否有机器学习或NLP模型可以在原始文本中分开问题和答案?

我有一些原始文本,其中有问题和答案。我想确定文本的哪些部分是问题,哪些部分是答案。这似乎很容易,但是问题不一定会因问号而终止。我唯一可以肯定…

别挽留 2025-02-05 14:26:58 1 0

将选项卡从文本文件划定到python中的2个变量时出错

我有一个文本文件,其中标签将数据划分为2个语言翻译,如下所示; to the regimes thanthrayanta according to the anuwa great maha situation thath…

御守 2025-02-05 08:02:16 2 0

从大熊猫数据框架中可视化最常见的术语的WordCloud

我有一个像这样的大熊猫数据框的子集: df = pd.DataFrame({index: [0,1,2]}, {viz_words: ['palace boat painting reel', ['paintings painting gall…

可爱暴击 2025-02-05 07:46:28 4 0

随着时间的流逝,单词频率:如何按日期计数单词频率?

我有一个数据框架,例如: 日期 文本 201901 谢谢您帮助我 201902, 您的 201902 帮助您帮助了这一点 ,我的目的是计算每行频率,最终看起来像这样: …

暗地喜欢 2025-02-05 06:49:55 4 0

需要使用标签工作室创建FUNSD数据集

有什么方法可以使用LabelStudio创建FUNSD数据集? 我已经使用PytessSeract对PDF 进行了OCR ,但我不确定在JSON文件上需要进行哪种帖​​子预处理,以…

帅气尐潴 2025-02-05 03:49:44 3 0

最大位置嵌入BERT

我现在正在学习伯特。 我认为由于内存问题,BERT限制位置嵌入为512。 但是,当我在拥抱脸上查找Bert代码时,我在Config上找到了此参数。 max_position…

怂人 2025-02-04 21:50:38 6 0

使用Pyspark CountVectorizer获取顶部关键字

我想使用 pyspark.ml.feature.countvectorizer 。提取关键字。 我的输入火花数据帧看起来如下: ID 文本 1 太阳,火星,太阳系,太阳系,太阳系,火星…

因为看清所以看轻 2025-02-04 18:21:44 4 0

在gpu上在TensorFlow中服用FFT2D时的错误

下面的代码在CPU上运行没有任何问题,但是当我更改为Colab中的GPU时,它无法计算FFT2D。 import tensorflow as tf sample_fft_input = tf.random.unif…

余生再见 2025-02-04 11:17:15 4 0

将Specfic JSON数据转换为Python中的TXT文件

因此,我目前有一个以这种格式的JSON文件, {"doc": "small-grains-report_2019.pdf", "url": "https://www.uidaho.edu/-/media/UIdaho-Responsive/Fi…

晚雾 2025-02-04 09:26:26 3 0

可以为NLP任务安装Spacy

我正在尝试为NLP任务安装Spacy,但是当我从( pip install -u pip setuptools wheel )我在下面获取错误。我相信我的错误可能来自我为笔记本电脑创建…

时光礼记 2025-02-04 08:52:34 4 0

试图设置矛盾的文档:'(4708,4717,'公司在')' (4681,4717,')'

[在此处输入图像描述] [1] 尝试设置冲突的文档。令牌只能是一个实体的一部分,因此请确保您设置的实体不要重叠。要与重叠的实体一起工作,请考虑使用d…

墨小沫ゞ 2025-02-04 07:45:59 7 0

R-如何计算DF行中的所有单词并将输出添加到新列中?理想情况下,使用整理或平淡的文本

我正在尝试在文本中找到单词的位置,也是同一文本的总词尺寸。 # library(tidyverse) # library(tidytext) txt<-tibble(text=c("we're meeting here t…

一束光,穿透我孤独的魂 2025-02-04 07:44:21 2 0

从r中删除文字中的停止单词

我在从文本数据中删除stop_words有问题。数据集被网络刮擦并包含客户评论,看起来像: data$Review <- c("Won't let me use my camera", "Does not lo…

雨后彩虹 2025-02-04 06:55:54 2 0

分析最常见的n-gram

美好的一天, 我一直在研究NLP,并遇到了最高n-gram提取的该代码: def get_top_tweet_bigrams(corpus, n=None): vec = CountVectorizer(ngram_range=…

何必那么矫情 2025-02-04 06:26:07 1 0

无法在APOC NLP中调用程序

我试图运行此代码&amp;每次我遇到相同的错误。我尝试了Google API和Azure,但都返回类似的错误。 匹配(A:文章) 致电apoc.nlp.gcp.entities.graph…

还不是爱你 2025-02-04 05:04:23 6 0
更多

推荐作者

qq_VRzBBA45

文章 0 评论 0

痴情

文章 0 评论 0

文章 0 评论 0

Mu.

文章 0 评论 0

凉薄对峙

文章 0 评论 0

不落城

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文