数据聚合在学术发表中的应用

数据聚合是收集信息并以摘要的形式表现出来的过程，它在商业上已经被成功应用了几十年了。比如现在登录某些网站的时候，推送的广告很可能跟你相关度很高。这是因为这些公司已经在收集与你相关的信息，比如年龄、专业，或者收入等信息，然后这些信息被用于网站的个性化。在学术发表领域，数据聚合还没有大规模的应用。现在由于科研文章的发表数量几乎是以指数的方式在增长，数据聚合的使用有着巨大的潜力。在数据聚合之后，采用搜索或者数据挖掘的方式对数据进行处理，能够总结出很多有用的信息，并且可以节省大量的时间。

但是问题并没有那么简单，最大的障碍是如何免费得到这些有用的海量数据。虽然开放获取出版致力于研究数据的免费提供，并且在最近几年得到迅速的发展。开放获取数据库如公共科学图书馆（Public Library of Science ，PLoS）和斯坦福大学的HIGHWIRE图书馆的规模也日益庞大。但是这些数据库仍然有它们的限制：

比如社会科学研究网（The Social Science Research Network ，SSRN）提供了总数几十万的文章，但很多都是预印版，要得到文章的最终版本可能需要与作者进一步联系。美国国立卫生研究院（National Institutes of Health， NIH）的PubMed数据库包含超过2400万篇文章，但其中有很多无法访问。谷歌学术搜索（Google Scholar）中包含大量的信息，但搜索结果中包含了很多无法访问的文章，还有一些期刊已被标记为缺乏严格同行评审过程的可疑刊物。

使用数据聚合是个喜忧参半的事情，它的确可以将相关的数据整合到一个大的数据库里头。但是在这个开放获取的时代，可以获取的数据的质量真的是无法预知的。而且，虽然先进的搜索算法可以帮助识别相关的数据，但是其中一些可能是受限制的，而且还可能存在署名权的问题。所以数据聚合在科学出版上的应用仍然是一个任重道远的事情。