CSV 中的字符编码 UTF 和 ISO-8859-1

发布于 2024-10-06 06:39:51 字数 856 浏览 1 评论 0原文

可能的重复：
如何在java中添加UTF-8 BOM

我的oracle数据库的字符集是UTF8。我有一个 Java 存储过程，它从表中获取记录并创建一个 csv 文件。

BLOB retBLOB = BLOB.createTemporary(conn, true, BLOB.DURATION_SESSION);
retBLOB.open(BLOB.MODE_READWRITE);
OutputStream bOut = retBLOB.setBinaryStream(0L);
ZipOutputStream zipOut = new ZipOutputStream(bOut);
PrintStream out = new PrintStream(zipOut,false,"UTF-8");

如果我使用上面的代码，德文字符（从表中获取）在 csv 中会变成乱码。但是，如果我将编码更改为使用 ISO-8859-1，那么我可以在 csv 文件中正确看到德语字符。

PrintStream out = new PrintStream(zipOut,false,"ISO-8859-1");

我读过一些帖子，其中说我们应该使用 UTF8，因为它是安全的，并且还可以正确编码其他语言（中文等），而 ISO-8859-1 将无法做到这一点。

请建议我应该使用哪种编码。（将来我们很有可能在表中存储中文/日文单词。）

原文

Possible Duplicate:
How to add a UTF-8 BOM in java

My oracle database has a character set of UTF8.
I have a Java stored procedure which fetches record from the table and creates a csv file.

BLOB retBLOB = BLOB.createTemporary(conn, true, BLOB.DURATION_SESSION);
retBLOB.open(BLOB.MODE_READWRITE);
OutputStream bOut = retBLOB.setBinaryStream(0L);
ZipOutputStream zipOut = new ZipOutputStream(bOut);
PrintStream out = new PrintStream(zipOut,false,"UTF-8");

The german characters(fetched from the table) becomes gibberish in the csv if I use the above code. But if I change the encoding to use ISO-8859-1, then I can see the german characters properly in the csv file.

PrintStream out = new PrintStream(zipOut,false,"ISO-8859-1");

I have read in some posts which says that we should use UTF8 as it is safe and will also encode other language (chinese etc) properly which ISO-8859-1 will fail to do so.

Please suggest me which encoding I should use. (There are strong chances that we might have chinese/japanese words stored in the table in the future.)

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

哆啦不做梦 2024-10-13 06:39:51

您目前仅讨论本质上是双面的流程的一部分。

将某些内容编码为字节仅在某些其他进程出现并在稍后某个时刻将其解码回文本的意义上才是真正相关的。当然，两个进程需要使用相同的字符集，否则解码将失败。

因此，在我看来，将 BLOB 从数据库中取出并放入 CSV 文件的过程是假设字节是 ISO-8859-1 文本编码。因此，如果将它们存储为 UTF-8，解码会很混乱（尽管基本 ASCII 字符在两者中具有相同的字节表示形式，这就是它们仍然正确解码的原因）。

UTF-8是几乎在所有情况下都可以使用的良好字符集，但它还不够神奇，不足以克服必须使用与编码相同的字符集进行解码的不变法则。因此，您可以将 CSV 创建器更改为使用 UTF-8 进行解码，否则您必须继续使用 ISO-8859-1 进行编码。

回复收藏 0 原文

冷弦 2024-10-13 06:39:51

我想您的 BLOB 数据是 ISO-8859-1 编码的。由于它存储为二进制而不是文本，因此它的编码不依赖于数据库编码。您应该检查 BLOB 是否最初是用 UTF-8 编码编写的，如果不是，请执行此操作。

回复收藏 0 原文

我要还你自由 2024-10-13 06:39:51

我认为问题是 [Excel]csv 无法找出 utf8 编码。
utf-8 csv问题

但我仍然没有即使我将 BOM 放在 PrintStream 上也能解决该问题。

PrintStream out = new PrintStream(zipOut,false,"UTF-8"); 
out.write('\ufeff');

我也尝试过：

out.write(new byte[] { (byte)0xEF, (byte)0xBB, (byte)0xBF });

但没有成功。

I think the problem is [Excel]csv could not figure out the utf8 encoding.
utf-8 csv issue

But I m still not able to resolve the issue even if I put a BOM on the PrintStream.

PrintStream out = new PrintStream(zipOut,false,"UTF-8"); 
out.write('\ufeff');

I also tried:

out.write(new byte[] { (byte)0xEF, (byte)0xBB, (byte)0xBF });

but to no avail.

回复收藏 0 原文

~没有更多了~

关于作者

若水微香

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

CSV 中的字符编码 UTF 和 ISO-8859-1

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

金兰素衣

ゃ人海孤独症

没有感情的刽子手

一枫情书

清晰传感

mb_XvqQsWhl

友情链接

CSV 中的字符编码 UTF 和 ISO-8859-1

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

金兰素衣

ゃ人海孤独症

没有感情的刽子手

一枫情书

清晰传感

mb_XvqQsWhl

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。