“列表”对象没有属性“lower”“list”对象没有属性“lower”；在 TfidfVectorizer 中

发布于 2025-01-19 16:45:53 字数 777 浏览 0 评论 0原文

我有关于某些阿拉伯语推文的CSV文件，我做了令牌，茎并清洁我在tfidfvectorizer中有错误的文本，


`data = pd.read_csv(r"tweet.csv" ,dtype=str, encoding="utf-8")

    
def preprocessing(text):
\#remove stop words
stop_words = set(stopwords.words('arabic'))
\#takenazation
tokens = word_tokenize(text.lower())
result = \[i for i in tokens if not i  in stop_words\]
\#stemming
als=ArabicLightStemmer();
word_list = \[als.light_stem(w) for w in  result\]
return word_list

data\['text'\]  = data\['text'\].apply(preprocessing)

vectorizer=TfidfVectorizer(binary=False,norm='l2',use_idf=True,smooth_idf=True,lowercase=True,min_df=1,
max_df=1.0,max_features=None,ngram_range=(1,1))
vectorizer.fit(data\["text"\])
x=vectorizer.transformv(data\["text"\])

它说“列表”对象没有属性，

我想对我的文本进行否决

原文

i have csv file about some arabic tweet i did token and stemming and clean the text


`data = pd.read_csv(r"tweet.csv" ,dtype=str, encoding="utf-8")

    
def preprocessing(text):
\#remove stop words
stop_words = set(stopwords.words('arabic'))
\#takenazation
tokens = word_tokenize(text.lower())
result = \[i for i in tokens if not i  in stop_words\]
\#stemming
als=ArabicLightStemmer();
word_list = \[als.light_stem(w) for w in  result\]
return word_list

data\['text'\]  = data\['text'\].apply(preprocessing)

vectorizer=TfidfVectorizer(binary=False,norm='l2',use_idf=True,smooth_idf=True,lowercase=True,min_df=1,
max_df=1.0,max_features=None,ngram_range=(1,1))
vectorizer.fit(data\["text"\])
x=vectorizer.transformv(data\["text"\])

i have error in TfidfVectorizer it said that 'list' object has no attribute 'lower'

i want to do vetorization to my text

分享到QQ

分享到微博