科研大数据面临的挑战

近几十年硬件的发展非常迅猛,第一台Macintosh苹果电脑的内存是128KB(0.13MB),现在很多笔记本配的是8GB的内存,硬盘1TB(1024GB),2TB的很常见。大型的数据服务器上还会有更大的储容量,往上的单位则是:Petabytes (1,024TB),Exabytes(1,024PB),Zettabytes (1,024 EB),以及Yottabytes(1024ZB)。每年产生的数据的量也是多得无法计算,光位于瑞士的大型强子对撞机每年就能产生15PB的数据。

巨大的信息量随之也带来了管理上的问题。虽然技术上是可以提供海量的存储容量,同时通过网络,全世界的科研人员都可以即时共享数据来促进科研的进步,然而对于科研人员来说,更重要的是用怎么使用这些数据,如果无法有效使用这些数据,那么海量的数据就不会是个好事,更会将科研人员埋没在里头了。

有效地搜索算法是利用好大数据的前提,谷歌等其他互联网巨头都在不断改进其搜索算法,试图可以提供准确的结果。其他的用户则依赖于搜索的结果,如果数据可以被正确地分类,通过与搜索算法匹配就很容易生成有用的数据,否则搜索出来的大量不相关的数据就足以浪费掉大量的宝贵的学习时间。数据聚合、挖掘这几年得到很大的重视,在这个云的时代,云的提供者们也都在努力通过更复杂的算法来分析这样巨大的数据集。在这个领域上的任何突破对科研的整体发展都将是意义重大的。

大数据是个让人喜忧参半的事情,能随时访问更多的数据的确有助于提高科研效率和了解最新科研动态。但是更多往往不等于更好。现在数据增加的速度已经远远超过了我们自己能够管理的能力范围了。平时工作最头疼的就是想起一篇文章大概的内容,但是却要翻半天才能找到。

对于科研单位而言,大数据也意味着更好的管理数据的工具很管理人员。为了让科研人员可以可靠地访问数据,就不得不采购“云”,甚至是建立自己的“云”,同时还需要聘请有经验的专家来构建和管理这些巨大的数据库。这些都是学术界在大数据时代所要面临的巨大挑战。

发表评论

Your email address will not be published.