反转 sprintf/format 的方法

发布于 2024-10-16 20:01:00 字数 692 浏览 12 评论 0原文

我必须通过分析格式化结果来启发式地确定格式模式字符串。

例如我有这些字符串：

您有 3 条未读消息。
您有 10 条未读消息。
对不起，戴夫。恐怕我做不到。
对不起，弗兰克。恐怕我做不到。
这个说法是错误的。

我想导出这些格式字符串：

您有%s条未读消息
对不起，%s。恐怕我做不到。
这个说法是错误的。

哪些方法和/或算法可以帮助我？

我的第一个想法是使用机器学习的东西，但我的直觉告诉我这可能是一个相当经典的问题。

一些额外的要求：

需要登录才能够评论，你可以免费注册一个本站的账号。

等风也等你 2024-10-23 20:01:00

通过某种相似性度量对字符串进行聚类（我会尝试最长公共子序列的长度，LCS）。确定簇的数量是困难的部分，如果您事先不知道的话。
在每个簇内，确定其中所有字符串的 LCS，记录出现间隙的位置。将空格替换为 %s。（您可能想要构建一个返回基于 LCS 的格式字符串的函数，并在集群上fold/reduce。）

上面是一个贪婪算法，给定 { foobar, fooBaR} 生成 foo%sa%s。您可能希望以递归方式将由单个字符（或单个非空白字符等）分隔的任意一对 %s 替换为单个 %s。