Crossref: 专供研究人员的文本和数据挖掘平台

1.Crossref

每年出版的书籍和期刊都有数百万册。当研究人员需要回答或解决一个问题时，他们到底是如何找到他们需要的信息呢? 过去，研究人员通过“屏幕抓取”这一软件技术来收集数据，它是利用计算机从一个网站获取数据的过程。如今，一种复杂的工具允许文本和数据挖掘(TDM)，由诸如Crossref这样的机构提供便利。自2000年Crossref成立以来，学术出版就有了突飞猛进的发展。该组织现在有超过5000名成员，由来自各个学科、学术团体、出版社和开放存取出版商为代表。通过使用自然语言处理(NLP)，Crossref简化了用户的日志和书籍的信息。文本挖掘是什么?文本和数据挖掘使用数据挖掘工具帮助研究人员分析和筛选数据资源，同时利用机器检测模式和连接。那么TDM如何在开放获取内容的世界中工作呢?

2.Crossref的起点

首先，研究人员确定他/她想与之共事的期刊。这是一个冗长乏味的过程，因为有成千上万的期刊可供选择。研究人员通过他/她的名单上联系每一份杂志以获取出版物是不实际的。它还需要某种形式的基础设施，以促进向100名要求从一家出版商获取期刊的研究人员提供内容的过程。这一过程的目的是收集到用户本人的数据的期刊。为了便于实现这一点，其他出版商如Elsevier已经创建了文章编程接口(api)，这是一种方便的批量下载内容的方式。由于Crossref隶属于成千上万的期刊，它通过允许学术研究人员访问订阅和开放访问内容来解决与TDM相关的物流和技术问题。

3.Crossref元数据的作用

第二，TDM工具需要应用于属于用户自己的数据体。为了收集大量的数据，用户需要大量从出版商和多个平台下载他/她的内容。数字对象标识符(DOIs)和元数据在这里很有用，因为它们稳定了在线期刊的内容，并确保它们在发布时仍然可用。Crossref是最大的DOI注册机构, 并且如果某个内容的web地址发生了变化, 成员可以更新Crossref元数据。Crossref元数据API是在2013年推出的，可以用来为TDM的目的提供跨发布的支持。它可以自由使用，并允许任何人搜索和筛选交叉引用的元数据。它也更容易集成到社区中，从而增加了可发现性。

4.TDM的应用和分析

第三，如果您在使用Crossref平台来挖掘数据，那么现在可以在应用的TDM工具之后分析结果。文本和数据挖掘通常与可视化技术相结合，以便在数据中发现模式。这些技术包括标签云、流图、树图、热图、散点图和时间序列，它们都可以用来显示实体之间的关系。除了检测模式之外，这些技术还可以通过分类或集群自动将文档分配给没有人工干预的组。最后，最初的研究问题可以从TDM的主题中得到解答。

5.文本和数据挖掘和开放访问

文本挖掘是什么?文本挖掘是跨发布平台的“挖掘”数据，是屏幕抓取的演变。文本和数据挖掘是一个不断发展的领域，应用程序变得越来越有价值。随着计算能力的提高，以及数字内容的快速普及，对未来的前景充满了希望。在开放获取内容的世界里，数据挖掘工具对于在大量的期刊和在线内容中寻找信息至关重要。Crossref试图克服在学术出版平台上整合期刊的数据流和技术障碍。