当前位置：文江博客话题详情

大数据 hadoop Spark

几千万个文本（1TB左右）需要根据规则计算做结构化，用什么大数据架构比较合适？

发布于 2022-09-11 22:02:08 字数 400 浏览 19 评论 0

目前有几千万个文本（1TB左右）的数据存储在sqlserver中。
需求是需要根据业务上的规则（位置，前后关键字，语法匹配等方式）对文本进行分析计算，将文本中的信息提取出来，生成结构化数据。
另外数据也是不断的在增长，每天增量在10~100万。

问题：

规则需要不断调整迭代，文本分析要反复进行，所以希望每次处理的时间尽量快一些，因此想采用分布式计算的方案。但具体使用什么架构比较好？hadoop，spark，storm等等，该如何选型，更适合当前的业务场景？
数据是否要从sqlserver导入到hadoop平台？用什么方案存储比较好？
生成的结构化数据是否可以写回到sqlserver中，前端程序改动较小，但不知道这样的话sqlserver是否会成为瓶颈？有没有什么解决方案？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

傾旎 2022-09-18 22:02:08

你不做实时分析，storm先放着。
HDFS按天存储文件。
Spark on Yarn跑批。
sqlserver导入导出可以用ETL工具。

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文