在python中如何处理域名中的其他编码

发布于 2024-11-03 11:18:16 字数 611 浏览 8 评论 0原文

我正在尝试从文件加载的电子邮件的 Message-ID 字段中解析域名，并将其与 from 字段的域进行比较，以查看其匹配程度。然后我使用 nltk.edit_distance() 比较距离。

我正在使用

re.search('@[\[\]\w+\.]+',mail['Message-ID']).group()[1:]

但有一封垃圾邮件消息具有以下内容

mail2['Message-ID']
'<2011315123.04C6DACE618A7C2763810@\x82\xb1\x82\xea\x82\xa9\x82\xe7\x8c\xa9\x82\xa6\x82\xe9\x82\xbe\x82\xeb\x82\xa4>'

因此，当我尝试匹配它在 group() 中不返回匹配项时

，我可以在 Shift_JIS 中对其进行解码，但不知道如何处理它 <2011315123.04C6DACE618A7C2763810@これから见えるだろう>

我不想尝试检查每种可能的字符编码。

我应该用它做什么有什么想法吗？

原文

I'm trying to parse domain names from the Message-ID field of an email that's been loaded from a file and compare it to the domain of the from field to see how well it matches up. Then I compare the distance using nltk.edit_distance().

I'm using

re.search('@[\[\]\w+\.]+',mail['Message-ID']).group()[1:]

but one spam message has the following

mail2['Message-ID']
'<2011315123.04C6DACE618A7C2763810@\x82\xb1\x82\xea\x82\xa9\x82\xe7\x8c\xa9\x82\xa6\x82\xe9\x82\xbe\x82\xeb\x82\xa4>'

So when I try and match that it doesn't return a match in group()

I can decode it in Shift_JIS, but don't know what to do with it from there
<2011315123.04C6DACE618A7C2763810@これから見えるだろう>

I don't want to try and check for every possible character encoding.

Any ideas of what I should do with it?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

说不完的你爱 2024-11-10 11:18:16

您可以尝试 chardet 项目，它使用算法来猜测字符编码：

import chardet

text = '<2011315123.04C6DACE618A7C2763810@\x82\xb1\x82\xea\x82\xa9\x82\xe7' + \
    '\x8c\xa9\x82\xa6\x82\xe9\x82\xbe\x82\xeb\x82\xa4>'
cset = chardet.detect(text)
print cset
encoding = cset['encoding']
print encoding, text.decode(encoding)

输出：

{'confidence': 1, 'encoding': 'SHIFT_JIS'}
SHIFT_JIS <2011315123.04C6DACE618A7C2763810@これから見えるだろう>

You can try the chardet project, which uses an algorithm to guess the character encoding:

import chardet

text = '<2011315123.04C6DACE618A7C2763810@\x82\xb1\x82\xea\x82\xa9\x82\xe7' + \
    '\x8c\xa9\x82\xa6\x82\xe9\x82\xbe\x82\xeb\x82\xa4>'
cset = chardet.detect(text)
print cset
encoding = cset['encoding']
print encoding, text.decode(encoding)

Output:

{'confidence': 1, 'encoding': 'SHIFT_JIS'}
SHIFT_JIS <2011315123.04C6DACE618A7C2763810@これから見えるだろう>

回复收藏 0 原文

~没有更多了~

关于作者

夜声

暂无简介

文章

25 人气

关注发私信

西西弗的石头怪

文章 0 评论 0

关注

5397313

文章 0 评论 0

关注

烟沫凡尘

文章 0 评论 0

关注

一个破名字

文章 0 评论 0

关注

萌︼了一个春

文章 0 评论 0

关注

当爱已成负担

文章 0 评论 0

友情链接

文江博客

在python中如何处理域名中的其他编码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

西西弗的石头怪

5397313

烟沫凡尘

一个破名字

萌︼了一个春

当爱已成负担

友情链接

在python中如何处理域名中的其他编码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

西西弗的石头怪

5397313

烟沫凡尘

一个破名字

萌︼了一个春

当爱已成负担

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。