用于菜谱编程分类的算法

发布于 2025-01-04 23:02:15 字数 534 浏览 1 评论 0原文

我有兴趣根据菜谱各种属性的统计分析以编程方式对菜谱进行分类。换句话说，我想将菜谱分类为 Breakfast、Lunch、Dinner 或 Dessert，无需任何用户输入。

我可用的属性有：

菜谱标题（例如鸡肉沙拉）
菜谱描述（描述菜谱的任意文本）
烹饪方法（准备此菜谱所涉及的步骤）
准备和烹饪时间
每个食谱中的成分及其数量

好消息是，我有一组大约 10,000 个已经分类的食谱样本，我可以使用这些数据教授我的算法。我的想法是寻找模式，例如“糖浆”这个词在早餐食谱或任何需要超过 1 杯糖的食谱中是否出现统计上更频繁 90% 的可能性是甜点。我想，如果我从多个维度分析配方，然后适当调整权重，我就能得到相当准确的结果。

在解决这个问题时，有哪些好的算法可供研究？像 k-NN 这样的东西会有帮助吗？或者有没有更适合这项任务的东西？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

江城子 2025-01-11 23:02:15

如果我要做的话，我会尝试按照LiKao的建议去做。我首先会关注成分。我会为食谱的成分部分中出现的单词建立一个字典，并以监督的方式清理列表，以删除非成分术语，例如数量和单位。

然后我会求助于贝叶斯定理：您的数据库允许您计算早餐和晚餐中含有鸡蛋的概率……；您将预先计算这些先验概率。然后给定一个包含鸡蛋和果酱的未知食谱，您可以计算这顿饭是早餐的概率（后验）。

您稍后可以使用其他术语和/或考虑数量（每人鸡蛋的数量）来丰富...

回复收藏 0 原文

乖不如嘢 2025-01-11 23:02:15

尝试各种众所周知的机器学习算法。我建议首先使用贝叶斯分类器，因为它很容易实现并且通常效果很好。如果这不起作用，请尝试更复杂的方法，例如神经网络或支持向量机。

主要问题是决定一组特征作为方法的输入。为此，您应该查看哪些信息是唯一的。例如，如果您有一个标题为“鸡肉沙拉”的食谱，那么“鸡肉”部分就不会引起太大兴趣，因为它也存在于配料中，并且更容易从那里收集。因此，您应该尝试找到一组提供新信息的关键字（即沙拉部分）。尝试为此找到一组好的关键字。这可能可以以某种方式自动化，但如果您手动完成，您可能会更好，因为它只需要完成一次。

描述也是如此。找到正确的特征集始终是此类任务中最困难的部分。

一旦你有了一组特征，只需在它们上训练你的算法，看看它的表现如何。如果您在机器学习方面没有太多经验，请查看正确测试 ML 算法的不同方法（例如，忽略 N 测试等）。

回复收藏 0 原文