数据挖掘

数据挖掘

文章 108 浏览 71

中文语句中的实体关系抽取,具体怎么做?

比如一句话“健肾平喘汤联合硫酸沙丁胺醇气雾剂吸入治疗慢性持续期哮喘临床研究”。我想抽取出健肾平喘汤与慢性哮喘这两个实体是有联系的,一直没有找…

街角卖回忆 2022-09-04 12:55:39 13 0

机器学习算法中如何确定哪些数据作为训练样本

最近参加了一个面试,面试官问了一个问题:如果我有上千万条数据,那我怎样确定将这些数据中的哪些数据作为训练样本集?烦请各位讲一讲,我当时没答上…

幻想少年梦 2022-09-04 08:27:51 23 0

怎么爬词库的数据

我想爬金山词霸的数据(单词+音频),没有相关经验,求推荐方法!…

刘备忘录 2022-09-04 04:26:33 10 0

Python Dataframe合并问题

用Pandas读取一个七百万条记录的微博爬虫文件,大小约1G。直接读入内存不足,于是采用chunksize=100000来分批读取。每个chunk的数据处理后得到count…

燃情 2022-09-04 02:07:15 18 0

迁移数据效率问题

问题描述如下 100万数据从A机房的一个表迁移到B机房的一个表,两个表结构不一样。我的实现方法如下:查出数据来,java层面进行数据的转义,然后开了3…

只是我以为 2022-09-04 01:00:26 12 0

Pandas完成excel中文字替换 决策树

刚开始用Pandas,想做一个ID3的决策树,首先需要把表中的非量化值以数字形式展示,表如下: 想把“预习程度”字段用-1,0,1来表示一般、好和差,学习…

ら栖息 2022-09-03 19:15:59 9 0

文本特征词提取算法

特征值提取,没有样本库情况下。 比如:我带客户亲自看过本房,房子是部长楼,此房位置闹中取静,建筑质量过硬,正规的三居室带大客厅。主卧室朝南,…

ぽ尐不点ル 2022-09-03 12:25:54 8 0

用python selenium抓取携程信息

最近在学习selenium,遇到一个很奇怪的问题,debug了半天还是没弄明白,我是在测试抓取携程网站的机票信息 我的代码: # -*- coding: utf-8 -*- from…

弱骨蛰伏 2022-09-03 08:55:52 16 0

python使用pandas的交叉表crosstab出现问题

对数据分析时使用到pandas,下面的代码是从数据库中获取数据再转换成DataFrame结构 sql = 'select * from content' cur.execute(sql) rows = cur.fet…

为人所爱 2022-09-03 07:29:27 18 0

Python scrapy 高手看过来

我现在有一个初始网址获得网页内容是: http://a.com/q=boy&ampalias=aps ["boy",["boys clothes","boys shoes","boys toys","boys socks","boyfrien…

挽清梦 2022-09-02 14:35:47 26 0

使用pandas从一个csv文件中筛选部分数据,求高效率方法

两个csv文件(1.csv 2.csv),第一个有 100万行数据左右,第二个30万行数据,它们有两个相同的列标,我想同时匹配这两列字符串,如果1的这两个字符串和2…

傲性难收 2022-09-02 08:43:13 19 0

网站是如何区分我的访问是爬虫还是计算机呢?

我用jsoup写了一个爬虫对网站进行爬取,过了一段时间,就被封了ip,变成了403,需要等好久才能解封。但是我用网页登录还是没问题的,也没要求输入验…

嗫嚅 2022-09-01 23:02:05 10 0

python做大数据统计

现在数据库中有500万数据,一口气读到python中并进行相应的统计分析是十分困难的,内存肯定受不了。请问各位有经验的同志们是如何实现的? …

月下客 2022-09-01 17:08:22 12 0

分类算法中如何收集停用词?

问题背景:对生物、化学、医学等领域期刊进行分类,分类对象都是英文摘要; 目的:因为噪声太大,需要去掉一些影响分类的停用词; nltk的corpus给出…

梦行七里 2022-09-01 16:53:31 17 0
更多

推荐作者

烙印

文章 0 评论 0

singlesman

文章 0 评论 0

独孤求败

文章 0 评论 0

晨钟暮鼓

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文