使用Tidy清理HTML,HTML内容被改变,编码问题?
我正在从 smarty 模板中获取 HTML,需要清理它(只是想删除多余的空格,并很好地格式化/缩进 HTML),我正在使用 tidy 来做类似的事情:
$html = $smarty->fetch('foo.tmpl');
$tidy = new tidy;
$tidy->parseString($html, array(
'hide-comments' => TRUE,
'output-xhtml' => TRUE,
'indent' => TRUE,
'wrap' => 0
));
$tidy->cleanRepair();
return $tidy;
虽然这对于英语来说没问题,但似乎多语言支持打破这个。例如,我在 $html 中可以使用阿拉伯字符,但整理后我会得到一些令人讨厌的编码:
هل أنت متأÙсØ´ أنÙς تريش
有一个设置吗in tidy 会格式化 HTML,但不理会 HTML 本身?我看了这篇文章:PHP“漂亮的打印”HTML(不是Tidy)但这似乎行不通,因为我是从 smarty 获取 HTML 的。
任何建议表示赞赏。
I am fetching HTML from a smarty template and need to clean it (simply want to remove extra whitespace, and format / indent the HTML nicely), I'm using tidy to do something like:
$html = $smarty->fetch('foo.tmpl');
$tidy = new tidy;
$tidy->parseString($html, array(
'hide-comments' => TRUE,
'output-xhtml' => TRUE,
'indent' => TRUE,
'wrap' => 0
));
$tidy->cleanRepair();
return $tidy;
While this works ok for english, multilingual support seems to break this. For example, I have arabic characters ok in $html, but after tidy I get back some nasty encoding:
هل أنت متأكد أنك تريد
Is there a setting in tidy that will format the HTML, but leave the HTML itself alone? I looked at this post: PHP "pretty print" HTML (not Tidy) but it's seems like this won't work since I'm grabbing my HTML from smarty.
Any suggestions appreciated.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
尝试使用第二个参数设置 parseString
http://www.php 中的编码.net/manual/en/tidy.parsestring.php
Try using the second argument to set the encoding in parseString
http://www.php.net/manual/en/tidy.parsestring.php
使用raw作为编码参数
对于 raw,Tidy 将输出高于 127 的值,而不将其转换为实体,并且所有阿拉伯字符都高于 127
use raw as encoding parameter
For raw, Tidy will output values above 127 without translating them into entities and all Arabic characters are above 127