文章 0 浏览 6
用于分析互联网上的文档!…
python 是否有一个包/库可以让我打开 PDF,并在文本中搜索某些单词?…
我正在维护一个程序,需要解析以“几乎结构化”的文本形式存在的数据。即,生成它的各种程序使用稍微不同的格式,它可能已被打印出来并 OCR 回来(是…
我有一套两种语言的文件:英语和德语。这些文档没有可用的元信息,程序只能查看内容。基于此,程序必须决定文档是用两种语言中的哪一种编写的。 是否…
我开始从事一个项目,在该项目中我必须用关键字标记文档,如果您手动执行此操作,这确实非常困难且耗时(特别是如果您有数千个文档)。 所以我计划自…
我正在开发一个项目,该项目包含一个连接到 NCBI(国家生物技术信息中心)并在那里搜索文章的网站。 问题是我必须对所有结果进行一些文本挖掘。 我使…
我想抓取特定的东西。 特别是正在发生的活动,如音乐会、电影、艺术画廊开幕式等,任何人们可能花时间去的事情。 如何实现爬虫? 我听说过 Grub (grub…
我正在通过使用爬虫挖掘网络内容来进行一些分析。 网页的文章正文周围经常包含杂乱内容(例如广告、不必要的图像和无关链接),这些内容会分散用户对…
我认为有大量与 reddit、digg 或 news.google.com 等网站相关的自然语言数据。 我对文本挖掘做了一些研究,但找不到如何使用这些工具来解析像 reddit …
文章 0 评论 0
接受