将 CHM 文件转换为 CSV 或 SQL
我正在创建一个 Facebook 应用程序,但除了 CHM 格式之外,我想要使用的数据不可用。
是否可以将 CHM 文件转换为 CSV 或 SQL?我们有现成的工具吗?
感谢您一如既往的帮助。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我正在创建一个 Facebook 应用程序,但除了 CHM 格式之外,我想要使用的数据不可用。
是否可以将 CHM 文件转换为 CSV 或 SQL?我们有现成的工具吗?
感谢您一如既往的帮助。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(2)
顺便说一句,您应该指定您希望构建此数据集的语言(英语、阿拉伯语...),因为这会影响书籍来源的选择和转换实用程序。
识别数据内容来源:
有趣的是,对于所有[交互式]在线 Hadeeth 搜索工具,例如
CRCC 穆斯林文本纲要 网站(源自 MSA West,但不知为何可用/不再在 MSA 站点工作),似乎没有任何可下载版本的底层数据库!
书籍本身有几个在线版本,特别是您提到的流行版本,但是您需要正确解析和索引它们,以便保留参考资料等。此外,“回到”书籍,您必须你自己把它们联系起来。
关于转换 CHM 文件...
据我所知,没有开源或免费软件程序,但共享软件 ABC Amber CHM 转换器(约 25.00 美元)似乎是此目的的黄金标准。
几年前,我只是偶然接触过这个软件,从事与您正在考虑的类似的一次性转换工作。琥珀转换器“成功了”;幸运的是,帮助页面的底层结构暴露了很多规律性,这允许相对直接地对 CSV/数据库字段进行制表。
ABC Amber 转换器支持多种语言,包括阿拉伯语(但我仅将其用于英语)。
BTW, you should specify the language (English, Arabic...) in which you wish to build this dataset, as this affect both the selection of book sources and the conversion utilities.
Identifiying data content sources:
Interestingly, and for all the [interactive] online Hadeeth Search tools such as the one on the
CRCC's Compendium of Muslim Texts site (original from MSA West, but somehow not available/working at MSA site anymore), there doesn't seem to be any download-able version of the underlying databases!
There are several online versions of books themselves, in particular the popular ones you mention, but you would then need to parse and index them properly in order to retain the references etc. Also, going "back" to the books, you would have to relate them yourself.
With regards to converting CHM files...
There's no open source or freeware program that I'm aware of, but the shareware ABC Amber CHM converter (c. $25.00) appears to be the gold standard for that purpose.
I only had passing exposure to this software a couple of years ago, for a one-time conversion job similar to the one you are contemplating. The Amber converter "did the trick"; Luckily the underlying structure of the help pages exposed much regularity which allowed a relatively straight forward tabulation into CSV/database fields.
ABC Amber converter supports many languages, including Arabic (but I used it for English only).
有一个著名的开源 *nix 库,称为 libchm,大多数 *nix chm 查看器都基于它。它附带了一个工具,可以将 .chm 解压缩为其 .html 原始文件(然后您必须将 html 表转换为 .csv)
Lazarus/Free Pascal 也有库,甚至可以编写,但据我所知,没有现成的“chm”编译器”工具。
There is a wellknown open source *nix lib called libchm on which most *nix chm viewers are based. It comes with a tool to decompress .chm to its .html originals (from which you then would have to convert the html tables to .csv)
Lazarus/Free Pascal also has libs, that even can write, but afaik no readily made "chm compiler" tool.