名称值对和事实表

发布于 2024-07-09 05:26:29 字数 544 浏览 12 评论 0原文

我正在研究用于分析发布的表单数据的星型模式。表单数据将发布到的站点实际上是托管表单的站点的外部，因此只有表单中的数据可用。我将提供包含一些额外有用信息的选项，包括隐藏字段、原始引荐来源网址、会话 ID 等。

我将能够使用正则表达式来匹配某些数据类型并将它们提取到特定维度，例如邮政编码。

我有一个解决方案来处理尺寸的任意性，它不是一个很好的方案，但它会起作用。

我遇到的问题是，我不知道我的事实表中会包含什么，它不像我可以聚合的很好的数值。除了“是的，有一个表格帖子”满足这些标准这一事实之外。

我想知道我是否以正确的方式处理这个问题？我是否使用了错误的工具来完成这项工作？或者我只是错过了什么？

西蒙.

进一步的细节：

有两个功能区域，根据标准过滤表单帖子，例如在两个时间戳之间。但在过滤方面几乎所有东西都可以争夺。然后，所选的表单帖子将用于生成用于导出的 csv 文件。

另一个主要领域是分析，研究广告支出向客户线索的转化是一个明显的起点。也有些开放式，取决于表单数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

少女七分熟 2024-07-16 05:26:29

您没有设计星型模式。您正在设计一个 Entity-Attribute-Value 表，其中包含所有您正在识别的问题。

如果您确实不知道数据是什么样子，即存在哪些表单字段以及每个表单字段应使用什么数据类型，那么关系数据库并不是保存信息的正确工具。尝试 XML、YAML 或 JSON。这些是结构化但动态的格式。您可以即时建立元数据。您可以将整个表单实例存储在文件中或数据库中的 BLOB 中。

另一种可以管理动态元数据的新兴技术是 RDF，其查询语言为 SPARQL。 Sesame 是语义数据引擎的一个示例。

回复收藏 0 原文

满身野味 2024-07-16 05:26:29

拥有没有测量值的事实表是可以的——它们只是被称为“无事实的事实表”。但您通常仍然会在其中放置一个 row_count 列 - 尽管它的值始终为 1 - 以轻松添加汇总表。您最终可能会在稍后添加其他测量值 - 例如，对术语情绪的测量。

我不会太担心这看起来不像仓储 101 示例 - 有很多极端情况会发生奇怪的事情。你当然可以有 field_name & field_value 作为列，如果没有 field_name，甚至只是 field_value。这样可行。它提供了大量的灵活性。

但您错过了一些重要的功能。由于给定的项目或对象实际上分为多行 - 典型的 SQL 过滤效果不佳。您通常需要将所有行拉入一个小应用程序中，该应用程序可以将它们作为一个整体进行评估 - 或者编写一些非常复杂的多步骤 sql，其中将每行评估的布尔结果插入到临时表中，然后按 session_id 分组（或无论等值），然后最终评估和/或逻辑。

另一种选择是走这条路，但逐渐开发 ETL 解析功能，以便随着时间的推移，您可以将其中一些内容拉出到更传统的维度。也许这会成为您的暂存表或原始表，但您尝试让大多数报告符合更传统的星型模式。

最后一个选项 - 考虑非关系数据库。更面向文档的东西可能会为您提供更好的功能。

回复收藏 0 原文

~没有更多了~