石油物探面临大数据 HPC挑战更大
近日,英特尔公司在南京举办了主题为“智领云海 源于创芯”的第六届高性能计算计算研讨会。在大会上,来自英特尔的高性能计算专家和与会的能源行业用户做了深入的交流。ZDNet服务器频道将以频道和博客的形式分别从专家角度和用户角度来报道本次研讨会的内容。
赖能和先生是中国石油东方地球物理研究所的总工程师。ZDNet服务器频道记者在研讨会后采访了他,首先了解了国内石油勘探的发展现状。
在介绍现在国内石油勘探的现状之前,有必要介绍一下高性能计算在石油勘探中的作用。大家对勘探的认知还停留在传统的打井验证——野外勘探人员背着各种专用设备,通过一系列地质勘探的方法来侦测,甚至是预估所探测地区的地层中是否存在石油,而后在这个区域内打上几口试验性的油井,以验证其预估是否准确。
这种方式早已过时,因为石油的分布并不是一个典型的“盆地”形状,而是由一个个彼此隔离的“葡萄串”组成的,因此在不够精准的勘测结果面前,人们只能多钻井进行尝试,而且只有将油井钻到一个储有石油的“葡萄”顶部,才算成功——然而打井做实验的成本非常高昂。为提高石油勘探的能力和效率并降低其成本,石油企业很快就开始在勘探中采用了更为先进的地球物理方法,尤其是地震波法。
所谓地震波法,简而言之就是用炸药在地面激起人工地震波,这种地震波可传入地下深处,并在碰到不同形态的地质构成时形成不同的反射波,这些反射波经地面的检波器收集、转变成电子信号后可存储为数据,通过对这些数据进行计算处理,人们就能清晰地摸拟还原出勘测区域的地下地质构造,并找到那些存有石油或天然气的岩层的精确位置。
那么目前中石油的高性能计算勘探应用发展到什么程度了呢?
目前与地震波法石油勘探相关的高性能计算应用软件,按计算性质可分为地震资料处理(seismic processing)和油藏模拟(reservoir simulation)两大类
利用高性能计算摸拟油藏分布图
从应用的特点上来看,地震资料处理是典型的浮点计算密集型应用,以求解数据密集的波动方程为主要计算模式,因此对浮点计算能力要求较高,对内存带宽的占用中等,对大量炮集的处理需要良好的多核扩展性。不同于在算法上以频谱计算为核心的地震资料处理软件,油藏模拟对计算平台的要求是需要支持稀疏矩阵方程的迭代求解,对内存带宽的要求非常高,并需要大缓存支持,因此这类软件可归为对内存带宽高度敏感的计算密集应用。
赖能和先生首先介绍了中国石油东方地球物理公司研究院处理中心的基本情况。他谈到,最近一年以来东方地球物理公司研究院的变化非常大,目前数据中心中共有处理器23000多个,核心数量达到了75000个以上,理论峰值为695千万亿次。而就处理中心的的情况来说,拥有GPU数量为936个,约为45万个核心,可以实现576千万亿次。
赖能和先生对笔者表示,当今的高性能计算遇到了诸多的问题,如多处理器协同工作,CPU+GPU模式的能耗管理,但是最重要的还在于大数据应用中遇到的存储瓶颈和数据安全问题。
他表示,大数据的环境下,高性能计算动辄几十TB甚至上百TB的数据,如何保存及备份都遇到了非常棘手的问题。赖总认为——计算机时代实际上已经进入了存储的时代。以往,存储设备还只是作为服务器的辅助产品、辅助设备而出现的,比如服务器本身会有存储的磁盘,而外接存储只是用来存储数据。但是今天,存储设备的投资占了IT投资的一半以上。
就中国石油东方地球物理公司研究院来说,每天增加的数据量都需要以TB级别来衡量。海量的存储、海量的数据怎么管理?这其中关键的有两个问题:一是性能能不能提高上去,二是怎么管理。他表示,东方地球物理研究院正在逐步使用并行系统,从DAS这样的传统存储架构进化到NAS,以及自行搭建的SAN系统,通过数字化管理、监控等手段逐步提升存储系统的性能和效率。
这方面赖总采用的是自行GPFS文件系统架构,而对于目前较火热的Hadoop架构,赖总表示了兴趣,并称未来会在这方面做相关的测试。
另外,虽然目前已经看到了大数据应用的趋势,但是大数据还并不是非常普遍,几十TB的数据在一年内可能只有2-3次会应用到,因此更多的时候还是需要分布式架构来解决。比如中国石油东方地球物理公司研究院正在专门搭建一套高密度、海量数据的数据处理系统。这套系统完全采用当前最先进的至强E5-2600系列处理器,搭载128GB或者256Gb的内存及超大容量的存储系统(5TB左右),网络方面会采用万兆网络,以提供强大的性能和良好的稳定性。
去年的问题跟踪(之前采访赖总时的问题跟踪):
1、 之前东方地球物理研究所采用了不少单路服务器,现在呢?
答:现在主要是双路,四路和八路也有。因为以前由于SMP架构下,应用的内存分配限制,因此用四路会导致内存不足。而在地震解释方面,就会使用单路、双路、四路以及八路服务器。赖能和总工表示,现在的八路服务器已经完全能使用。
2、之前4月份的时候您在HP Gen8服务器发布会上登台宣讲说是在测试SL250 Gen8产品,现在怎么样了?
答:当时没过多久我们就下单采购了,SL250 Gen8系列产品是它们HP的高可扩展服务器,现在主要用来做GPU加速运算,主要用于逆时运算等复杂的并行计算。
2、 针对大数据这一块您说会投入5000万左右,主要将采用什么系统呢?
答:会主要采购双路的服务器产品,用来打造高密度海量计算系统,内存大概在128GB,5TB存储,网络方面在考虑用Infiniband或万兆以太网产品。
文章版权归西部工控xbgk所有,未经许可不得转载。