如何通过连续特征对一组样本进行分类？

发布于 2024-11-28 13:34:57 字数 1660 浏览 2 评论 0原文

例如，我得到了下面的表格，它只是 20 名以上年龄的人的粗略分布

年龄人数

2 1
5 5
8 2
10 3
15 1
16 2
17 1
20 4
21 1

然后通过使用相同的数据集，我可以构建另一个“更好”的表。

年龄人数

10- 8
10秒 7
20+ 5

事实上，我可以使用相同的数据集制作更多包含不同年龄范围组合的表格。

现在我想知道如何找到最佳组合。我们可以用来衡量组合是否良好的可能“优度函数”可能遵循以下三个原则：

类不应太多或太少类
的范围不应变化太大。
分布应该足够平滑，即每个类别涵盖的项目数量不应相差太大。

由于这个问题所代表的情况只是足够笼统地描述一类具体问题，因此应该已经存在一些复杂的解决方案。但我没能找到他们。有人可以给一些建议吗？

我已经了解了一些分类算法，如 PCA、k-mean 或“基于最大熵的算法”，但似乎它们太笼统，无法通过遵循上述所有三个原则来涵盖这个特定问题。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

上课铃就是安魂曲 2024-12-05 13:34:57

我会执行以下操作：

构建一个评估函数：

double goodness(double firstThreshold, double bucketWidth, int numBuckets)

根据您的原则返回一个良好分数。然后，我会暴力破解多个参数组合，并选择具有最佳优度分数的组合。如果我们为每个参数尝试 4-10 个值，那么蛮力就会起作用，并且可能会为您提供很好的截止值。如果你想变得更复杂或者让它运行得更快，那么你可以尝试其他搜索方法，比如爬山、波束搜索或模拟退火，但我认为这对于你的情况来说可能有点过分了。

I would do the following:

Construct an evaluation function:

double goodness(double firstThreshold, double bucketWidth, int numBuckets)

which returns a goodness score based on your principles. I would then brute force a number of combinations of parameters and pick the combination with the best goodness score. If we try 4-10 values for each parameter then brute force will work, and probably give you nice round numbers for the cutoffs. If you want to get more sophisticated or have it run faster then you can try other search methods like hill-climbing, beam search or simulated annealing but I think that might be overkill for your situation.

回复收藏 0 原文

~没有更多了~