如何在长的多用户互联网聊天日志中识别特定用户？

发布于 2024-11-19 01:52:33 字数 1301 浏览 3 评论 0原文

这是我们计划举办的在线编程竞赛。

有哪些可能的方法可以解决这个问题？

从随机的 IRC（互联网中继聊天）日志中，一小部分用户昵称将被随机删除。参与者的代码必须能够填写缺失的用户昵称。换句话说，这个事件要求你想出一个智能程序，可以弄清楚“谁可以说什么”。

可以假设所有交流都将使用现代英语，带或不带标点符号。

例如 -

原始聊天： <代码>... <用户1>：嘿！ <用户2>：您好！用户1，你来自哪里？：有人可以帮我安装 Gnome 吗？ <用户1>：印度。 user3，您是否安装了X Windows系统？ <用户2>：酷。 Gnome、user3 是什么？：我不知道。我该如何检查？：它是桌面环境，user2。 <用户2>：噢耶！刚刚用谷歌搜索。：在命令行中输入“startx”。以 root 身份登录并输入“apt-get install gnome”。 <用户3>：谢谢！：我是root，听我的！ <用户2>：啊？！：user2，你最好开始使用Linux了！ ...

以下内容仅提供给参与者。

删除了一些昵称的聊天记录：

：嘿！：您好！用户1，你来自哪里？：有人可以帮我安装 Gnome 吗？：印度。 user3，您是否安装了X Windows系统？：酷。 Gnome、user3 是什么？ <%%%>：我不知道。我该如何检查？ <%%%>：它是桌面环境，user2。：噢耶！刚刚用谷歌搜索。：在命令行中输入“startx”。以 root 身份登录并输入“apt-get install gnome”。：谢谢！ <%%%>：我是root，听我的！ <%%%>：啊？！：用户2，你最好开始使用Linux！ ...

参与者的代码将负责用适当的用户昵称替换“<%%%>s”。在模棱两可的情况下，例如上例中的随机注释（任何其他用户也可以这么说！），代码应该指示相同的内容。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

≈。彩虹 2024-11-26 01:52:33

我想到了两件事：作者归属和聊天解开。两者都不完全是你所描述的，但它们都非常接近。

作者归属是试图找到一组已知作者中哪位作者撰写了特定文档的问题。经典的作者归属通常用于大段文本（例如戏剧、小说、演讲），但人们一直在尝试对来自互联网来源的较短文本样本执行相同的操作。一个好的参考可能是 Moshe Koppel 撰写的带有“作者身份”的任何内容' 在标题中，例如最近的论文野外作者归属。此任务的常用方法涉及使用典型的文档分类方法，即在一组通常被认为是停用词（例如 as、of、the 等）上使用词袋特征和机器学习分类器。这里的问题是所有这些工作都是在文档上进行的，并且没有考虑 IRC 数据的会话性质。

聊天解开是从聊天数据中识别出许多连贯的“对话”的问题。这是一个相当困难的问题，因为您经常需要使用对话上下文才能知道谁在回复谁。我想这种方法对于这项任务也很重要。例如，如果匿名消息是对话的一部分，则将作者集限制为对话中的人员。我真的只从论文解开聊天，作者：Elsner 和 Charniak。他们的“相关工作”部分很好地概述了该领域。