大数据

大数据

文章 168 浏览 845

从线上实时下载海量文件到HDFS有哪些方案?

最近公司想把上千台服务器上生成在一个文件夹下的日志文件(5分钟生成一个)实时下载到3台HDFS上,但是文件量大,HDFS带宽有限,网路上需要压缩。是否…

残花月 2022-09-04 11:40:49 27 0

海量的图片数据如何高效加标签

大概有 1000W个图片 没有标题 没有标签 想用标签索引 给一个图打多个 标签 但是人工效率极低 机器批量加的话 又非常不准确 一般这种情况怎么处理 有没…

小嗲 2022-09-04 10:17:33 11 0

hive 中经常出现不释放的锁,导致后续进程无法执行。

FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some time 请问这个问题是什么原因造成的,…

懒的傷心 2022-09-04 01:54:02 13 0

高性能本地缩略图存储如何设计

本地一个软件瀑布流元素加载UI,一页加载大概50~200个缩略图,目前是用缩略图的UUID名称进行文件存储,类似d:cachexx-xx-xx-1.jpg,d:cachexx-xx-xx-2.…

烛影斜 2022-09-04 00:43:07 26 0

CDH5.8.2完全离线安装失败,报错Java拒绝连接

安装环境,三台centos6.5虚拟机,内存分配分别为8GB,2GB,2GBCDH版本为5.8.2,java版本均为1.8.0,使用完全离线安装,安装过程参考CDH5 Hadoop集群完…

写下不归期 2022-09-03 19:51:21 15 0

Sqoop从本地MySQL导入到Hive为什么要求Sqoop一定要在HDFS中

问题来源是这样,我使用sqoop向Hive中导入mysql的表 sqoop import --connect jdbc:mysql://127.0.0.1:3306/employees_db --table titles --username …

遇到 2022-09-03 13:02:12 26 0

百度智能运维的多时序数据关联分析是如何做到的?

智能运维在百度日常业务监控中的探索 这篇文章里的分析问题篇:关联分析里面有一个多时序间的关联,也就是下面这张图的关联分析是如何做到的?…

赠意 2022-09-03 11:36:31 19 0

Spark: memory.ExecutionMemoryPool 报内存释放失败警报

跑一个 spark 程序时,从日志看到很多 task failed,从 executor 的日志看到多个 executor 报 WARN memory.ExecutionMemoryPool: Internal error: re…

∞觅青森が 2022-09-03 09:26:31 18 0

怎样让spark定时读数据库数据呢?

我做大数据分析,我想用spark定时去读cassandra数据(轮询),分析结果存到mysql,用scala写程序,该如何实现...?需要用spark streaming吗?…

小兔几 2022-09-02 15:50:51 17 0

Java 读取txt格式语料库并匹配指定字符串,如何可以快速完成?

有一个9M多行的语料库,文件大小4G。现在需要匹配指定动词,符合句子条件的输出。但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法…

黄昏下泛黄的笔记 2022-09-02 14:51:11 21 0

从100万行log记录中筛选有价值的信息

问题:从100万行log记录中筛选有价值的信息,需要用到什么知识?是大数据么?具体是大数据的哪部分知识?把他们筛选出来,用什么工具?对它们分析,用…

琉璃繁缕 2022-09-02 14:31:49 18 0

微信100亿条用户获取红包的数据,找出其中得到红包数最多的1000名用户,用什么方法比较好?

微信100亿条用户获取红包的数据,找出其中得到红包数最多的1000名用户,用什么方法比较好?…

悲喜皆因你 2022-09-02 13:31:01 13 0

协调服务容易出错,比如单点故障,竞态和死锁,数据可能丢失等?

最近在学习zookeeper,看到一些文章,“对协调服务容易出错,比如单点故障,竞态和死锁,数据可能丢失等”这句话感到不理解。…

寂寞花火° 2022-09-02 10:27:47 11 0

Hbase 可以进行二分查找吗?

因为背景需求,并不能直接在hbase上直接查找键,需要进行二分,这种查询可行吗?…

盗琴音 2022-09-02 09:56:55 18 0

请问如何对大数据进行排序?

我没处理过大数据,假设一种情况,有10亿条数据,这么大的数据,请问一般有什么样的算法能对这样大的数据进行排序?我希望的是能给出解决方案或者是解…

鼻尖触碰 2022-09-02 09:45:18 12 0
更多

推荐作者

lorenzathorton8

文章 0 评论 0

Zero

文章 0 评论 0

萧瑟寒风

文章 0 评论 0

mylayout

文章 0 评论 0

tkewei

文章 0 评论 0

17818769742

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文