大数据时代,Twitter和Facebook等社交媒体已然成为学术界的新宠,越来越多的研究人员正利用社交媒体上的数据进行学术研究。心理学家利用社交媒体上的信息上进行情感挖掘和实验,行为学家用它来分析人类日常行为,政治学者用它们来捕捉民意。其中的一部分研究成果甚至已经作为政府决策、公共政策及企业投资的参考。
大型的互联网公司也不会放过这个潜在的巨大商机,三月份的时候,IBM和Twitter联合发布了第一款针对开发者的工具和云数据分析服务。其中数据来自Twitter,数据服务则依托IBM的Watson人工智能技术,大数据平台支持Hadoop,处理软件是IBM BigInsights。IBM允许用户引入Twitter中的数据来开发应用程序。IBM认为此次合作的应用范围非常广阔,从为开发者提供产品开发指导和生产日程计划,到为消费者产品及其市场营销提供数据支持 [1]。
社会化媒体数据相比传统研究方法收集的数据确实有一些优势。例如,数据实时可用,更新快且搜集范围广;信息未被一些人为的偏见过滤掉;由人们自然参与,主动提供,可信度较高等。但同时也存在一些假象、陷阱。例如不同社交媒体吸引不同人群,各类人群不具有广泛的代表性;社交媒体可能会按照自己的设计标准有意改变用户行为;垃圾邮件或一些自动发送数据的软件,会干扰数据收集;网上的匿名行为可能会造成一些夸张或不实。
现在我们正处于技术发展的转折点,给使用社交媒体数据的研究人员提出了新的挑战。怎样才能获得高标准,高准确度的数据来支持研究?怎样防止社交媒体数据的一些伦理问题?只有解决了这些问题,才能让社交媒体数据真正帮助人们在经济、社会、技术等方面解决社会发展所遇到的问题。
[1] http://36kr.com/p/220711.html