人工智能需要数据。普遍大家可能只关注“大”数据中的这个“大”。人工智能确实需要大数据,甚至是海量数据;但人工智能还需要,或者叫更需要,高质量的数据。
获得高质量数据的一个有效方式,就是人为标记。
高质量的标注数据,足以决定一家人工智能公司的竞争力。前阵子大热的华裔科学家李飞飞,加盟了Google。她的一大成就是参与建立了ImageNet。这是由167个国家的48940名工作者,用两年时间,过了近十亿张图片以后,形成的一个拥有1500万张标注图片的数据集。这是多大的工作量?
可能,更重要的问题是,这到底是体力劳动还是智力劳动?嗯,反正我怎么看怎么都觉得,是人类在给机器打工。
对于这种数据标注工作,简单的部分已经可以交给外包公司进行了。但是对于一些复杂的部分,或者还在探索的部分,还是需要“高级人员”自己动手来。一方面是对标注质量更放心,另一方面,可以一边标注一边实验结果,甚至要不断改进标注的方式。其实,标注数据只是人工智能领域底层的体力工作之一,只有从事人工智能领域的人才明白,看起来高大上的光环背后,是无尽的清洗数据和特征工程。其实一点也不高大上。
但是,或许,或许,所有的高大上的背后,都有着这样的辛酸。