请教20万到30万的预算做计算服务器是用机群好还是买一台4or8cpu的服务器好?

发布于 2022-07-17 15:22:03 字数 296 浏览 9 评论 9

计划跑linux
主要是EDA计算,对存储要求不高,一个计算进程也就几个tps的存储请求,保证数据安全就可以
软件对多线程的支持也不是特别好,最多2,3个线程并行,一般都是单线程的

估计计算能力上肯定是集群高了

老板主要担心集群的可靠性和可管理性是不是不如现成的单服务器好?

另外,如果要买这样的集群,连存储以及管理一套方案一般要找什么样的公司?
曙光之类的是不是不做这么小的买卖?

没什么经验,老板让我调研,请诸位大侠多多发表意见
bow

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(9

风苍溪 2022-07-21 18:43:23

原帖由 nntp 于 2006-2-20 08:16 发表

你的环境写的比较清楚了,我的建议如下:

1. 不建议 hpc科学计算集群(beowulf), 因为内存和cpu交换次数多,如果用beowulf的话,计算网络这块用普通的GbE网,mpi延迟会很大, 你的预算和规模又不允许采用infiniband.  AMD 64的处理器架构,由于NuMA的结构设计,在计算领域对你这种应用性能上表现得非常出色. 我已经有多个国内研究机构和IC制造行业的客户案例.

Beowulf确实不太适合IC行业,同时,openmosix我认为也不适合,原因是openmosix会内部大量通信,调度过于频繁.

2. 建议采购
AMD64 Opteron 4way 双核 服务器 内存配置 1:4或者1:8,也就是16G或32GB   x  2  (比如HP DL585 DC)
AMD64 Opteron 2way 双核 服务器 内存配置 1:4 ,也就是 8GB x 1, SCSI/SAS硬盘若干,支持RAID.(比如HP DL385 DC)

为什么用双核?我一直认为双核目前看来价格过高,效率没单核快,要知道,license可是很贵的.它多用一个小时,license的费用就多很多了.
很多人向我推荐双核,我可是一直没用.我寻求的是一个性价比平衡.不过双核肯定是趋势.

3. 各服务器 角色定位
4路的机器承担主要运算工作, 安装CentOS for AMD64/EM64t 版本 ,  4.2以上
2路服务器作为任务调度节点/管理节点/存储节点

存储和计算一定分开.任务调度其实可以跟计算一起

4.  我用了3台机器但是并不是集群, 所有的用户login(ssh) 到2路服务器上,在这个服务器CLI方式通过任务调度器递交计算作业,或通过 vnc/xmanager/reflectionX,用你的EDA的图形前端递交任务.  

这样的方式不错.我个人建议考虑一台App--后面跟多台computing nodes,nvidia好像就是这样,当然工程师还是可以作弊,比如交互式提交

5. 2路服务器上的任务调度器,配置成不要做beowulf计算方式,把 4路的2台设备都加入到管理域里面,设置成任务分别递交到不同的服务器上(我建议按照用户的任务调度器里面的login账户来区分,这样管理上最方便,比如说 a b c 用户login到2路服务器递交作业的时候,总是分配到 第一台四路服务器,d e f 则分配到第二台. 这种配置在任务调度器里面非常容易设置)

因为不做MPI 的分布式计算,所以任务调度器我建议用SGE(Sun Grid Engine) 我用过 openPBS, PBSpro, LSF, SGE,用下来个人觉得还是SGE最方便.

从这点看,版主经验丰富.以后多多向你学习.SGE对我来说,感觉就两个字:复杂

6. 如果你的工作站或者其他服务器可以腾开的话,也可以加入到任务调度器的管理域中,废物利用.

7.  这种NuMA的方式非常适合你描述的这种计算类型, 当然如果你的EDA没有前后端的,可能我们就要另行讨论了 :")

EDA领域我做的类似你这种情况的项目用的是 Rsoft 的Fullwave(复杂光学元器件设计) 和Metor Graphic(ASIC设计)的应用计算环境.

请问Mentor的是什么软件?Calibre?还是其他?
谢谢!
good luck.

不好意思,直接引用一下.

玩物 2022-07-21 18:43:21

原帖由 nntp 于 2006-2-20 08:16 发表

你的环境写的比较清楚了,我的建议如下:

1. 不建议 hpc科学计算集群(beowulf), 因为内存和cpu交换次数多,如果用beowulf的话,计算网络这块用普通的GbE网,mpi延迟会很大, 你的预算和规模又不允许采用inf ...

气死我了..刚才编辑半天.居然丢了...

待"谢繁草 2022-07-21 18:43:08

原帖由 yangpeip 于 2006-2-19 14:07 发表
非常感谢上面几位的建议

把情况再说清楚点儿:

现在我们机房用的是一台sun E450服务器作NIS server+NFS server
另外若干台Ultra10/60来做工作站提供计算服务,但是都是独立对外提供X登陆服务
目前出现的问 ...

你的环境写的比较清楚了,我的建议如下:

1. 不建议 hpc科学计算集群(beowulf), 因为内存和cpu交换次数多,如果用beowulf的话,计算网络这块用普通的GbE网,mpi延迟会很大, 你的预算和规模又不允许采用infiniband.  AMD 64的处理器架构,由于NuMA的结构设计,在计算领域对你这种应用性能上表现得非常出色. 我已经有多个国内研究机构和IC制造行业的客户案例.

2. 建议采购
AMD64 Opteron 4way 双核 服务器 内存配置 1:4或者1:8,也就是16G或32GB   x  2  (比如HP DL585 DC)
AMD64 Opteron 2way 双核 服务器 内存配置 1:4 ,也就是 8GB x 1, SCSI/SAS硬盘若干,支持RAID.(比如HP DL385 DC)

3. 各服务器 角色定位
4路的机器承担主要运算工作, 安装CentOS for AMD64/EM64t 版本 ,  4.2以上
2路服务器作为任务调度节点/管理节点/存储节点

4.  我用了3台机器但是并不是集群, 所有的用户login(ssh) 到2路服务器上,在这个服务器CLI方式通过任务调度器递交计算作业,或通过 vnc/xmanager/reflectionX,用你的EDA的图形前端递交任务.  

5. 2路服务器上的任务调度器,配置成不要做beowulf计算方式,把 4路的2台设备都加入到管理域里面,设置成任务分别递交到不同的服务器上(我建议按照用户的任务调度器里面的login账户来区分,这样管理上最方便,比如说 a b c 用户login到2路服务器递交作业的时候,总是分配到 第一台四路服务器,d e f 则分配到第二台. 这种配置在任务调度器里面非常容易设置)

因为不做MPI 的分布式计算,所以任务调度器我建议用SGE(Sun Grid Engine) 我用过 openPBS, PBSpro, LSF, SGE,用下来个人觉得还是SGE最方便.

6. 如果你的工作站或者其他服务器可以腾开的话,也可以加入到任务调度器的管理域中,废物利用.

7.  这种NuMA的方式非常适合你描述的这种计算类型, 当然如果你的EDA没有前后端的,可能我们就要另行讨论了 :")

EDA领域我做的类似你这种情况的项目用的是 Rsoft 的Fullwave(复杂光学元器件设计) 和Metor Graphic(ASIC设计)的应用计算环境.

good luck.

[ 本帖最后由 nntp 于 2006-2-20 08:17 编辑 ]

等你爱我 2022-07-21 18:36:57

我爱钓鱼  看样子也是这个行业的。

我可以非常清楚的告诉你:如果是一个进程对内存要求很多,并且是calibre这些,可以用4cpu的。
否则,用多个1U的服务器做。

我目前在一个机架里边放置了很多片子,运行很好。同事也不错,写的脚本可以将验证的程序跟我的系统配合很好。

如果有其他什么方面的要求,请联系我。欢迎一起讨论。
我的联系方式请看我资料。

EDA计算环境下,目前,我感觉上海的SMIC做得不错。
另外:用linux吧,sun sparc这个东西做验证和仿真会让你痛苦的。

你好,陌生人 2022-07-21 18:28:41

原帖由 wolfop 于 2006-2-18 19:48 发表
既然多线程支持不好,那么应该可以假设不同计算程序之间的通信量要求也不大。看来应该用多个集群比较好。

是不是多个集群的管理会很费劲?
我们老板对可管理性还是挺重视的,因为没有专职的管理员,希望管理方便一些。现在的管理员很累hehe

樱&纷飞 2022-07-21 17:22:08

非常感谢上面几位的建议

把情况再说清楚点儿:

现在我们机房用的是一台sun E450服务器作NIS server+NFS server
另外若干台Ultra10/60来做工作站提供计算服务,但是都是独立对外提供X登陆服务
目前出现的问题是:
1. sun的cpu太慢,于是想换成X86架构的cpu
2. 由于我们外网的ip有限,因此实际上只有几个外网ip的工作站使用率比较高,而内网工作站虽然说可以从有外网ip的rlogin进来用,但是由于用户水平问题,负载仍然很不均衡,内网机器被闲置,外网ip的机器负载太高
3. 由于工作站都比较独立,管理起来很不方便,比如需要杀死进程和监视负载情况等

软件基本应用分成3类:
1. 教学用。这类负载不重,但是需要支持比较多的人并发登陆
2. 仿真。这类负载是内存量不大,一个任务几M到几十M的内存,但是cpu运算量大,与内存交换频繁。仿真时间长,一个任务可能1天到1周不等。存储量也不是很大,算得多,存得少。软件多线程以1~2线程为主,更多的线程可能加速效果不大,这是在SMP下测得,线程间通信估计比较多。这类应用目前比较多。
3. 布局布线。与2相比,内存使用量大,一个任务可能1~4G的内存。时间短一些,可能数个小时到1天时间。软件多线程比较成熟,4个线程甚至更多,传统上也是SMP环境。这类的应用比较少,但是有

[ 本帖最后由 yangpeip 于 2006-2-19 14:10 编辑 ]

似梦非梦 2022-07-21 07:11:24

软件环境交代清楚.

我工作的一部分内容就是HPC.可以给你建议.

骷髅 2022-07-20 06:43:54

原帖由 yangpeip 于 2006-2-18 13:46 发表
计划跑linux
主要是EDA计算,对存储要求不高,一个计算进程也就几个tps的存储请求,保证数据安全就可以
软件对多线程的支持也不是特别好,最多2,3个线程并行,一般都是单线程的

估计计算能力上肯定是集群高了 ...

老板的担心也不无道理.事实上现在的应用情况来看(就EDA行业),仿真时对机器的内存/IO/CPU的计算能力要求比较高,仿真软件可以很轻松的把进程迁移到集群的节点上去运算,但cadence的ICFB在进程迁移时可能会有些问题.

另外,仿真的进程迁移可以实现,但也不能实现集群的节点的资源共享(比如一个仿真需要4G内存,你还是需要有一台4G内存的机器,并不是4台1G内存的机器就可以了,如果你运行4个需要1G内存的仿真,LSF等集群软件会自动为你找四台空闲的机器),这是我实验的结果,可能我的水平有限,没有真正实现集群.

飘然心甜 2022-07-20 00:38:34

既然多线程支持不好,那么应该可以假设不同计算程序之间的通信量要求也不大。看来应该用多个集群比较好。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文