人工智能现在的写作能力虽然还不至于写出世界名著,但足以掩藏住机器的痕迹,混淆普通人的视线。最重要的是,AI可以批量生产文本,炮制假新闻、快速刷评论。该如何揪出冒充人类的AI呢?哈佛大学和麻省理工学院- IBM沃森人工智能实验室(MIT-IBM Watson AI Lab)的研究人员想到了用AI识别AI。
他们开发了一种叫做“巨型语言模型测试器”(GLTR)的新工具,用于识别人工智能生成的文本。其辨别原理基于:人工智能是利用文本中的统计模式来自动生成文本的,而不考虑单词和句子的实际含义。也就是说,如果一篇文章中的用词都是可预测的,该文章就极可能是由人工智能写的,而GLTR可以标注出文章用词是否可预测。
开发最厚的盾,就要用最强的矛来测试。前一阵子,埃隆马斯克参与创立的AI研究机构OpenAI推出了一种算法,可以自动生成真实度极高的段落。只要在该算法的“学习模式”中输入海量数据,该算法就可以统计词频,组合高频词,生成新的段落。而哈佛大学的团队正是用Open AI公开发布的代码为基础,发明了GLTR。
GLTR可以根据词频,标明最可能出现的单词搭配。最易预测的单词是绿色的,较难预测的是黄色和红色的,最难预测的是紫色的。当对Open AI编写的算法所生成的文字进行测试后,发现大部分单词都可预测;而人类写出的新闻和科学摘要文字搭配更多样。
那么,什么样的用词才是AI无法模仿的“人来之笔”呢?澎湃新闻记者将《哈姆雷特》中脍炙人口的段落放进该工具中检索。