第 8 页 - 大数据 - 文江博客

投稿关注

大数据

文章 168 浏览 845

从线上实时下载海量文件到HDFS有哪些方案？

最近公司想把上千台服务器上生成在一个文件夹下的日志文件（5分钟生成一个）实时下载到3台HDFS上，但是文件量大，HDFS带宽有限，网路上需要压缩。是否…

残花月 2022-09-04 11:40:49 27 0

海量的图片数据如何高效加标签

大概有 1000W个图片没有标题没有标签想用标签索引给一个图打多个标签但是人工效率极低机器批量加的话又非常不准确一般这种情况怎么处理有没…

小嗲 2022-09-04 10:17:33 11 0

hive 中经常出现不释放的锁，导致后续进程无法执行。

FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some time 请问这个问题是什么原因造成的，…

懒的傷心 2022-09-04 01:54:02 13 0

高性能本地缩略图存储如何设计

本地一个软件瀑布流元素加载UI，一页加载大概50~200个缩略图，目前是用缩略图的UUID名称进行文件存储，类似d:cachexx-xx-xx-1.jpg,d:cachexx-xx-xx-2.…

烛影斜 2022-09-04 00:43:07 26 0

CDH5.8.2完全离线安装失败，报错Java拒绝连接

安装环境，三台centos6.5虚拟机，内存分配分别为8GB，2GB，2GBCDH版本为5.8.2，java版本均为1.8.0，使用完全离线安装，安装过程参考CDH5 Hadoop集群完…

写下不归期 2022-09-03 19:51:21 15 0

Sqoop从本地MySQL导入到Hive为什么要求Sqoop一定要在HDFS中

问题来源是这样，我使用sqoop向Hive中导入mysql的表 sqoop import --connect jdbc:mysql://127.0.0.1:3306/employees_db --table titles --username …

遇到 2022-09-03 13:02:12 26 0

百度智能运维的多时序数据关联分析是如何做到的？

智能运维在百度日常业务监控中的探索这篇文章里的分析问题篇：关联分析里面有一个多时序间的关联，也就是下面这张图的关联分析是如何做到的？…

赠意 2022-09-03 11:36:31 19 0

Spark: memory.ExecutionMemoryPool 报内存释放失败警报

跑一个 spark 程序时，从日志看到很多 task failed，从 executor 的日志看到多个 executor 报 WARN memory.ExecutionMemoryPool: Internal error: re…

∞觅青森が 2022-09-03 09:26:31 18 0

怎样让spark定时读数据库数据呢？

我做大数据分析，我想用spark定时去读cassandra数据（轮询），分析结果存到mysql，用scala写程序，该如何实现...?需要用spark streaming吗？…

小兔几 2022-09-02 15:50:51 17 0

Java 读取txt格式语料库并匹配指定字符串，如何可以快速完成？

有一个9M多行的语料库，文件大小4G。现在需要匹配指定动词，符合句子条件的输出。但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法…

黄昏下泛黄的笔记 2022-09-02 14:51:11 21 0

从100万行log记录中筛选有价值的信息

问题：从100万行log记录中筛选有价值的信息，需要用到什么知识？是大数据么？具体是大数据的哪部分知识？把他们筛选出来，用什么工具？对它们分析，用…

琉璃繁缕 2022-09-02 14:31:49 18 0

微信100亿条用户获取红包的数据，找出其中得到红包数最多的1000名用户，用什么方法比较好？

微信100亿条用户获取红包的数据，找出其中得到红包数最多的1000名用户，用什么方法比较好？…

悲喜皆因你 2022-09-02 13:31:01 13 0

协调服务容易出错，比如单点故障，竞态和死锁，数据可能丢失等？

最近在学习zookeeper，看到一些文章，“对协调服务容易出错，比如单点故障，竞态和死锁，数据可能丢失等”这句话感到不理解。…

寂寞花火° 2022-09-02 10:27:47 11 0

Hbase 可以进行二分查找吗？

因为背景需求，并不能直接在hbase上直接查找键，需要进行二分，这种查询可行吗？…

盗琴音 2022-09-02 09:56:55 18 0

请问如何对大数据进行排序？

我没处理过大数据，假设一种情况，有10亿条数据，这么大的数据，请问一般有什么样的算法能对这样大的数据进行排序？我希望的是能给出解决方案或者是解…

鼻尖触碰 2022-09-02 09:45:18 12 0

共 11 页
上一页
6
7
8
9
10
下一页

lorenzathorton8

文章 0 评论 0

关注

Zero

文章 0 评论 0

关注

萧瑟寒风

文章 0 评论 0

关注

mylayout

文章 0 评论 0

关注

tkewei

文章 0 评论 0

关注

17818769742

文章 0 评论 0

友情链接

文江博客

大数据

从线上实时下载海量文件到HDFS有哪些方案？

海量的图片数据如何高效加标签

hive 中经常出现不释放的锁，导致后续进程无法执行。

高性能本地缩略图存储如何设计

CDH5.8.2完全离线安装失败，报错Java拒绝连接

Sqoop从本地MySQL导入到Hive为什么要求Sqoop一定要在HDFS中

百度智能运维的多时序数据关联分析是如何做到的？

Spark: memory.ExecutionMemoryPool 报内存释放失败警报

怎样让spark定时读数据库数据呢？

Java 读取txt格式语料库并匹配指定字符串，如何可以快速完成？

从100万行log记录中筛选有价值的信息

微信100亿条用户获取红包的数据，找出其中得到红包数最多的1000名用户，用什么方法比较好？

协调服务容易出错，比如单点故障，竞态和死锁，数据可能丢失等？

Hbase 可以进行二分查找吗？

请问如何对大数据进行排序？

热门标签

推荐作者

lorenzathorton8

Zero

萧瑟寒风

mylayout

tkewei

17818769742

友情链接