R 中的无限函数/循环:数据管理
我正在尝试重构一个巨大的数据框(大约 12.000 个案例):在旧的数据框中,一个人是一行,大约有 250 列(例如,人 1、测试 A1、测试 A2、测试 B,...…
R 和 Hadoop 有关系吗?
R 和 Hadoop 有关系吗?据我了解,两者都用于大规模数据分析和计算。我还注意到 Google 和 Facebook 使用 R,Mapreduce 框架来自 Google,他们使用它…
R 中 ddply 拆分大量类别的问题
我最近问了一个关于计算元素重复次数的问题(http://stackoverflow.com/questions/7669553/how-to-assign-number-of-repeats-to-dataframe-based-on-e…
使用 C# 对巨大的二进制文件进行排序
我有一个大约 400 GB 的大文件。由外部封闭系统每天生成。它是一个二进制文件,格式如下: byte[8]byte[4]byte[n] 其中 n 等于 byte[4] 的 int32 值。…
无论设置正确与否,PHP 连接都会在大文件上传时重置
我遇到了一个非常常见的问题,似乎找到的所有可用解决方案都不起作用。 我们有一个接收大量流量的 LAMP 服务器。使用此服务器,我们执行定期文件提交…
对于大型表连接和更新,我应该更改哪些 MySQL my.ini 参数?
我有以下内容: TableA - 20M 行 TableB - 500K 行 许多查询,特别是以下查询,需要很长时间。 UPDATE TableA AS A INNER JOIN TableB AS B ON B.Valu…
查询中的 MySQL 子位置计数器
我需要获取一个记录集,其中为每 60 条记录填充字段 level1,这意味着我需要以这种方式填充 level1 字段: 在 pos=1 和 pos=60 上,level1 = 1 在 pos…
在 MySQL 中存储和访问庞大数据矩阵的最有效方法
我将在 mysqlDB 中存储大量矩阵数据,存储和访问数据最有效的方法是什么? 获取数据时效率最重要,表不会定期更新。 矩阵大约是 100.000 乘以 1000(…
150M记录按名称排序
我有一个每天生成约 1.5 亿条记录的数据集,其中包含: member_id、member_name、member_name_first_letter 我需要获取按 member_name asc 排序的列表…