Facebook机器人理解自然语言,技术赶超谷歌SyntaxNet

Facebook机器人理解自然语言,技术赶超谷歌SyntaxNet

图片来源:Getty Images

先是微软、然后Facebook、现在是谷歌。又一次,互联网巨头们将目光聚焦在了同一个未来趋势上:聊天机器人

这些公司许诺说,在未来的几个月和几年内,你可以像跟朋友聊天一样,与互联网服务商聊天。聊天机器人会即时回复你的提问、回应你的需求,甚至预测你的需求。跟老同学聊天约聚会的时候,你可以让OpenTable机器人找找有什么餐厅好吃。不用另外打开一个APP,你就能用Travelocity机器人订酒店。

不过,还有一个关键问题没有解决:打造一个真的可以聊天的聊天机器人机器人可以以某些方式来模拟聊天,但是距离真正理解人们聊天的方式,还有很大的差距。上个月底,为了推动这方面AI技术的进步——并且与竞争对手争抢公关眼球——谷歌开源了SyntaxNet,公司自然语言理解技术所使用的工具之一(开源分享可以让更多的人来推动技术进步)。现在,为了不被超越,Facebook展示了自己的一项重要技术,一个称为DeepText的自然语言引擎。

Facebook还没有将这项技术开源。而且,公司也才刚刚开始在自己各项服务中使用DeepText。但是据Facebook称,DeepText让人们看到公司希望在未来加速自然语言理解的进展。为了打造系统,他们希望少一点依赖人类,多一点依赖数据——互联网上的海量数据

理解万岁

谷歌和Facebook都在使用深度神经网络来推进他们的自然语言处理能力。深度神经网络在许多别的在线任务中都已经获得了成功,例如识别照片中的人脸、识别智能电话的语音指令,人们希望这些能够通过分析海量数据学会任务的软件和硬件网络,也能够成功学会理解语言,并以自然的方式回应人类语言。

谷歌新开源的系统“SyntaxNet”使用神经网络来理解句子中的语法逻辑。神经网络可以通过分析几百万张猫咪照片来学会识别猫咪,同样地,神经网络可以分析几百万个句子,从而学会理解语法——名词、动词、以及动词如何与名词联系起来等等。这种方法称为句法分析,很有用,但是也有局限性。人类必须将几百万个例句仔细标记,标出句子中的每一个部分,以及每个部分与句子剩余部分是什么关系,这样SyntaxNet才能从数据学习。而且,即便是机器成功学会理解一个句子的语法,它还得更进一步才能理解一个聊天对话的完整意义。

但是,现在Facebook的研究人员说,他们已经将这项顶尖技术推向了全新领域。”(DeepText)帮我们弥补了数据库标记的不足。”Facebook工程总监Hussein Mehanna说,“它有非常巨大的结构。它可以通过无监管的方式来学习。”换句话说,Facebook的系统更多依赖数学,而非语法精度。

“他们说这话的意思是,关于语言结构,他们没有去教神经网络任何东西。”Chris Nicholson这样解释道,他是深度学习创业公司Skymind的创始人,他说Facebook的研究之前已经在一些公开研究论文中讨论过了。这很重要,他补充说,因为这可以打造更加灵活的系统——系统可以马上扩展到众多不同的情景。Facebook的系统可以像学英语一样,学会法语、西班牙语——只要将语言解构,将语言看做只是数学而已。据Mehanna说,DeepText已经能用20种不同的语言运行了。

聊啊聊

过去,研究人员使用仔细编码的规则来打造自然语言引擎——这是种困难又耗时的方法。这也是苹果打造Siri的方法。通过打造可以自主学习的系统,谷歌和Facebook等公司希望系统不需要很多人类干涉,就能够自己成长、越来越智能。不过,我们还没实现这个目标。Facebook的方法还在早期阶段,而且并不是所有人都相信Facebook的系统真像公司说的那么好用。

Noah Smith是华盛顿大学的计算机科学家,他的专业领域就是自然语言理解。他说不只有Facebook想通过未经标记的数据实现理解。他说,基于Facebook的一篇近期研究论文,他不觉得公司的方法特别酷炫。不过,他和许多人都认为,这是未来研究会探索的方向。

Facebook机器人理解自然语言,技术赶超谷歌SyntaxNet

当用户聊天时出现以下聊天内容,软件会自动识别出用户想打出租车,并出现叫车按钮:“我需要打车。”、“我们打个车去吧。”、“打个车。”、“叫个出租。”、“但是我得打个车。”当用户说“嗨!”、“我不需要打车。”和“我想骑毛驴。”的时候,软件不会出现叫车按钮。图片来源:Facebook

Mehanna说,Facebook会在今年夏天发表更多关于DeepText的最新研究论文。他说,公司正在开始测试该项技术,作为支持Facebook Messenger内部聊天机器人的工具。据Mehanna说,系统可以在你平时跟朋友聊天的时候自动识别出你想打出租车。而且,我们有理由相信Facebook可能在此方面有一种竞争优势——数据。

要学会自然语言,你需要大量的自然语言——以数字化的形式。以前这是难以实现的。但是这对Facebook来说是小菜一碟——公司的社交媒体上,每一天都有几百万真实的聊天对话在发生。据Mehanna称,人们每分钟发布的新消息多达40万条,而这些新消息下面,每天都会发布8千万条评论。

对,这也就是说,Facebook利用自己网站上生成的数据来训练DeepText,而公司以外的研究员很难验证公司所说的技术。不过,这个数据也至关重要。现在,Facebook上几乎所有的聊天都是人与人之间的进行的。但是有了正在倾听和学习的机器人,也许有一天,我们也会在Facebook上和机器人聊天。

Via 《连线》杂志

发表评论

电子邮件地址不会被公开。