为分类问题生成假数据的最佳方法是什么？

发布于 2024-08-28 07:40:31 字数 292 浏览 17 评论 0 原文

我正在开发一个项目，我有用户击键时间数据的子集。这意味着用户进行了 n 次尝试，我将在各种分类算法中使用这些记录的尝试时间数据，以便将来的用户尝试验证登录过程由用户或其他人完成。（简单地说，这是生物识别技术）

我有 3 次不同时间的用户登录尝试过程，当然这是无限数据的子集。

到目前为止，这是一个简单的分类问题，我决定使用 WEKA，但据我了解，我必须创建一些假数据来提供分类算法。用户的测量尝试将为 1，假数据将为 0。

我可以使用一些优化算法？或者有什么方法可以创建这些假数据以获得最小的误报？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

喜爱皱眉﹌ 2024-09-04 07:40:31

您可以通过几种不同的方法来解决这个问题。

收集负面示例 - 一种简单的解决方案是仅从其他人那里收集可用作负面示例的击键计时数据。如果您想以非常便宜的方式收集大量样本，例如花费大约 10 美元收集大约 1000 个样本，您可以使用类似 Amazon Mechanical Turk。

也就是说，您可以将一个人类智能任务 (HIT) 放在一起，让人们输入类似序列的随机密码。要获取计时信息，您需要使用外部问题，因为常规问题的受限 HTML 不支持 JavaScript。

使用生成模型 - 或者，您可以针对用户的击键行为训练生成概率模型。例如，您可以针对用户击键之间的延迟训练高斯混合模型 (GMM)。

这样的模型将为您提供特定用户生成的击键计时信息的概率估计。然后，您只需要设置一个阈值来确定时间信息的可能性，以便对用户进行身份验证。

使用 1 类 SVM - 最后，1 类 SVM 允许您仅使用正例来训练类似 SVM 的分类器。要在 WEKA 中学习一类 SVM，如果您使用的是 v3.6，请使用 LibSVM 包装器。如果您使用的是前沿开发人员版本，可以使用 weka.classifiers.meta.OneClassClassifier。