当前位置：文江博客话题详情

大型数据库上的文本挖掘（数据挖掘）

发布于 2024-08-28 23:14:42 字数 1153 浏览 19 评论 0原文

我有一个大型简历 (CV) 数据库，以及一个对所有用户技能进行分组的特定表技能。

该表内有一个字段skill_text，它以全文描述技能。

我正在寻找一种算法/软件/方法来从该表中提取重要的术语/短语，以便构建一个具有标准化技能的新表。

以下是从数据库中提取的一些示例技能：

部门和竞争分析
业务开发（包括. 在国际环境中）
具体结构和道路设计软件 - Microstation、Macau、AutoCAD（基础知识）
创意工作（Photoshop、In-Design、Illustrator）
检查和报告活动进度
组织和参加活动和展览
开发：Aptana Studio， PHP、HTML、CSS、JavaScript、SQL、AJAX
学科：一对一营销、电子营销（SEO 和 SEA、展示、电子邮件、联属计划）混合营销、病毒式营销、社交网络营销。

输出应类似于：

部门和竞争分析
业务开发
特定结构和道路设计软件 -
澳门
AutoCAD
Photoshop
In-Design
Illustrator
组织活动
开发
Aptana Studio
PHP
HTML
CSS
JavaScript
SQL
AJAX
混合营销
病毒式营销
社交网络营销
电子邮件
SEO
一对一营销

如您所见，只有技能，没有其他表示文本。

我知道使用文本挖掘技术可以做到这一点，但如何做到呢？数据库真的很大......这是一件好事，因为我们可以计算文本频率并确定它是真正的技能还是只是无意义的文本...... 最大的问题是..如何确定“blablabla”是一项技能？

编辑：请不要告诉我使用标准的东西，如文本tokinzer或正则表达式..因为用户以非常任意的方式输入技能！

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

半岛未凉 2024-09-04 23:14:42

如果我以编程方式执行此操作，我会：

将所有标点符号分隔的数据（或者可能只是括号和逗号）提取到一个新表中（没有主键，只有技能），这样创造性工作（Photoshop、In-Design、Illustrator） 变为

 Skill            
 -------------
 Creative work    
 Photoshop        
 In-Design        
 Illustrator

然后，在处理完所有 CV 后，查询最常见的技能（这是 MySQL）

SELECT skill, COUNT(1) cnt FROM newTable GROUP BY skill ORDER BY cnt DESC;

这可能看起来像这个人为的示例

 Skill            Cnt
 ---------------------
 Photoshop        3293
 Illustrator      2134
 Creative work     932
 In-Design         123

然后您决定从前 X 个技能中，您想要捕获哪些技能必须映射到其他技能（例如，Indesign 和 In-design 应映射到相同的技能）以及要丢弃的技能，然后使用数据映射编写流程脚本。

使用数据映射写入新的词频表（本次skill_id，skill，频率），第二次解析数据时也写入查找表（cv_id，skill_id）。然后，您的数据将处于以下状态：每个 CV 映射到多个技能，每个技能映射到多个 CV。您可以查询最热门的技能、符合特定条件的简历等。

If I was doing this programmatically I would:

Extract all punctuation delimited data (or perhaps just brackets and commas) into a new table (with no primary key, just skill) so Creative work (Photoshop, In-Design, Illustrator) becomes

 Skill            
 -------------
 Creative work    
 Photoshop        
 In-Design        
 Illustrator

Then, after you've proceed all CVs, query for the most common skills (this is MySQL)

SELECT skill, COUNT(1) cnt FROM newTable GROUP BY skill ORDER BY cnt DESC;

Which may look like this contrived example

 Skill            Cnt
 ---------------------
 Photoshop        3293
 Illustrator      2134
 Creative work     932
 In-Design         123

Then you decide, from the top X skills, which you want to capture, which must map to other skills (Indesign and In-design should map to the same skill, for example) and which to discard, then script the process using a data map.

Use the data map to write a new word frequency table (this time skill_id, skill, frequency) and the second time when parsing the data also write to a lookup table (cv_id,skill_id). Your data will then be in a state where each CV is mapped to a number of skills, and each skill to a number of CVs. You can query for the most popular skills, CVs matching certain criteria etc.

回复收藏 0 原文