当前位置：文江博客话题详情

电影数据库 - 演员/女演员/标签的存储？

发布于 2024-10-08 17:08:14 字数 269 浏览 0 评论 0原文

创建一个电影数据库，我不喜欢为每个演员和每个标签提供自己的行，就好像总共有 1000 万部电影，每个电影至少有 20-30 人的演员阵容，我们将有 200-3 亿行在表中。

而且标签变得更加复杂，每部电影可以不受限制。那么这三样东西如何存放才最好呢？理想情况下，这些可以建模为多对多，但仍然会有数亿行。关于存储这些有更好的建议吗？我正在使用MySQL。

我会将其全部转储到一个文本文件中，但我需要链接电影之间的演员并进行一些分析，并允许用户对演员按标签查找电影等进行评分，因此需要使用数据库。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一个人的旅程 2024-10-15 17:08:14

1000 万部电影看起来相当雄心勃勃。 IMDb 目前的统计数据显示，他们拥有的图书数量不到 180 万，用户数量约为 390 万。

话虽如此，我认为创建标题表、演员表和连接表来解决两者之间的多对多关系没有问题。对于标签来说也是如此。

替代文字

回复收藏 0 原文

羁拥 2024-10-15 17:08:14

这里听起来可能有点不成熟的优化。您可以将所有演员非规范化为电影表中某种TEXT列，但您的性能和搜索将会受到影响，并且会失去关系数据的所有优势。

建议保留规范化架构，正如您最初的想法：

Movie (ID)
Actor (ID)
Tag (ID) --horror, comedy, etc.

MovieActor (MovieID, ActorID)
MovieTag (MovieID, TagID)

按照正常方式在关联实体上创建索引：MovieActor 和 MovieTag。
在测试环境中加载一些虚拟数据。 1000 万部电影，1 亿演员，100 万个标签。根据需要为每个创建关联条目。
基线和性能测试。
水平分区（分片）（如果您的性能指标需要更高的性能）。

无论电影数量有多少，也无论数据是否是 DNA 序列：实施设计、测试它、根据您的要求（用户接受度、SLA 等）判断其性能

It sounds perhaps a bit of premature optimization here. You could denormalize all actors into a TEXT column of some kind onto the Movie table, but your performance + search would suffer, as well as losing all benefits of relational data.

Suggest to keep the normalized schema, as you were originally thinking:

Movie (ID)
Actor (ID)
Tag (ID) --horror, comedy, etc.

MovieActor (MovieID, ActorID)
MovieTag (MovieID, TagID)

Create indexes as per normal on the associative entities: MovieActor and MovieTag.
Load some dummy data in a Test environment. 10 million movies with 100 million actors with 1 million tags. Create associative entries for each as required.
Baseline and performance test.
Horizontal partitioning (sharding) if your performance metrics require more performance.

Regardless of the number of movies, or whether the data is DNA sequences: implement a design, test it, judge its performance based on your requirements (user acceptance, SLA, etc)

回复收藏 0 原文

○闲身 2024-10-15 17:08:14

您厌恶数百万行的原因是什么？感知到的性能问题？

它将在某个地方拥有数亿个关系。你确实必须捕捉演员和电影之间的映射，正如你所说，其中有 200-3 亿部（尽管我不相信存在 1000 万部电影？）

如果你真的想要，你可以（例如）将一部电影的演员 ID 打包到多列（或一列）中，但这会使搜索变得不愉快。

回复收藏 0 原文

浮光之海 2024-10-15 17:08:14

1000 万部电影，每部有 20 到 30 名演员（尽管这个数字听起来比现实生活中要多）必然会产生 200-3 亿个联想。如果您将数据存储在关系数据库中，则每个关联自然会成为将电影与演员链接起来的表中的一行。每行都非常小（两列 - 电影 PK 和演员 PK；可能还有一个额外的代理键列）；大部分数据将存储在电影和演员表中。

任何其他解决方案（在 SQL 数据库中）都将以不太理想的格式存储相同数量的数据。

回复收藏 0 原文

~没有更多了~