解析 HTML 表格的最佳方法
我有兴趣解析下表和其他类似的表: http://www.cityofames.org/ftp/routes/Fall/wdreds& ;w.html
对于这项工作的最佳工具有什么建议吗?经过一番搜索后,我无法决定应该使用什么,并且希望在做出某件事之前获得一些反馈。
我对任何语言/工具都持开放态度。
I am interested in parsing the following table and others like it:
http://www.cityofames.org/ftp/routes/Fall/wdreds&w.html
Any suggestions on the best tool for the job? After searching around I can't decide what I should use and would like to get some feedback before committing to something.
I am open to any languages/tools.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
如果您正在寻找 HTML 解析器,Java 中有多种选择:
JTidy
NekoHTML
jsoup
TagSoup
您可能还想对优点和缺点进行非常全面的讨论使用这些的缺点 此处。
If you are looking for an HTML parser, there are number of options in Java:
JTidy
NekoHTML
jsoup
TagSoup
You might also want to go through a very comprehensive discussion on pros and cons of using each of these here.
使用 lynx,我可以做到:
使用所选的脚本语言变得非常容易解析,
html2text
也可以工作(从未使用过它)。您还可以使用 grep/sed 来格式化它。
With lynx I can do:
becomes very easy to parse with scripting language of choice,
html2text
may also work(never used it).You could also play around with grep/sed to format it.
HTML 太难被任何解析器理解。您需要首先使用 tidy(http://tidy.sourceforge.net/) 等程序将其转换为相当接近的 XML 格式(对于格式良好 - 意味着匹配的标签),例如 XHTML。
然后,您可以使用 XML/XHTML 解析器来解析格式良好的 XML。请注意,您必须根据字体样式处理数据,并将基于字体样式的标签转换为时间数组。
这是解析时您可以执行的操作
HTML is too difficult to be understood by any parser. You need to first convert this to a reasonably close XML format(for wellformedness- means tags that are matched) like XHTML using a program like tidy(http://tidy.sourceforge.net/).
You can then use a XML/XHTML parser to parse the wellformed XML. Note that you will have to process your data based on font styles and convert the tags based on font styles to an array of times.
Here is what you can do when parsing