1月15日,据《华尔街日报》报道,陷入困境的雅虎公司将公布历来规模最大的一批互联网行为数据约2000万匿名用户在雅虎的运动、金融、新闻、房地产和其他页面的点击、浏览和翻页等行为的信息。这批数据只供大学使用,预计将给研究人员提供海量用户线上行为的罕见真实信息。
雅虎公司在多年来增长乏力后,正面临人才流失的窘境。该公司希望吸引人工智能这一高速增长而竞争激烈领域的研究人员。
卡内基梅隆大学(Carnegie Mellon University)计算机科学院院长摩尔 (Andrew Moore)称,无论拥有多少人才,老板还想要更多;这些大型科技公司总是感觉没有足够人才去做其想做的事情。
机器学习需要大量的数据,计算机从中发现复杂的模式,并算出结果,以雅虎提供的数据为例,计算机可以发现下午7时30分住在南达科他州拉皮德城的十几岁女孩会被那类新闻标题或设计特点所吸引。在大型互联网公司之外,此类数据十分稀少,而且严格保密,因其可能会暴露公司的业务情况。雅虎的这批数据共有13.5TB,约相当于国会图书馆数据规模的2/3.
曾担任谷歌(Google)高管的摩尔表示,与绝大多数学术性计算机科学家能够获得的任何数据相比,这批数据的规模都要大得多,而且多到可能需要存储在大学系统之外,或许是亚马逊公司(Amazon.com,AMZN)或Alphabet Inc.(GOOG)旗下谷歌运营的云计算服务中心。卡内基梅隆大学去年与雅虎公司签署了1000万美元的5年期合作协议,将根据用户数据开发个性化应用。