pyspark中的角色级tfidf?
我有一个由10m行组成的数据集:
>>> df
name job company
0 Amanda Arroyo Herbalist Norton-Castillo
1 Victoria Brown Outdoor activities/education manager Bowman-Jensen
2 Amy Henry Chemist, analytical Wilkerson, Guerrero and Mason
而且我想计算列 name
的3-gram字符级tfidf矢量,就像我很容易使用Sklearn:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(analyzer='char', ngram_range=(3, 3))
X = tfidf.fit_transform(df['name'])
问题是我可以是我可以't在 Spark Documentation < /a>或in 文档。
Pyspark是否可以实现这一目标?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这些工具可用:
tfidf spark vs sklean 和
是的,这是可以实现的。
字符为。
The tools are available:
TFIDF Spark vs SKlean and ngrams.
Yes it is achievable.
Example of characters being tokenized.