banner

多智能自然语言处理

作者: 大数据观察来源: 大数据观察时间:2017-08-26 17:36:390

来源:《中国计算机学会通讯》 2015年第3期《专题》 作者:周明  赵东岩

背景——前所未有的创新时代

我们生活在一个创新的时代。在这个时代,互联网颠覆了人们的生活和工作方式。社交网络与移动终端的普及、大数据的产生与汇聚,催生出越来越多的新需求。这些需求必将推动更多创新应用(如微博、微信、语音助手、网络购物、手机打车、PM2.5指数、手机钱包、互联网理财、交友、移动学习、在线课程等)的问世。由于创新所依赖的基础设施日趋完善,多种云计算服务及开源平台前所未有地降低了创新的成本,使得人们可以将精力集中到创新本身。

得益于网络和云计算所支持的令人惊叹的计算能力,以及从大数据洞察到的良机,还有机器学习所带来的算法进步,人工智能获得了新生。人工智能,是指计算机系统具备从听说读写到搜索、推理、决策、回答问题等类人智能的能力。

最近,很多互联网公司提出了“大脑”计划,就是试图在大数据和互联网的背景下,提升各种应用的智能水平。在大数据的支持下,新一代人工智能与自然语言处理技术的大规模应用将成为科技创新的重大机遇。

数据智能、知识智能与社会智能

数据智能、知识智能和社会智能是智能应用的三种典型模式。

数据智能是在大规模、多样化、新鲜的数据支持下,在云计算的支撑下,采用机器学习的方法进行分类、聚类和排序,进而基于各类数据驱动实现的智能应用系统。这里的数据是指存在于万维网(Web)或者企业内部的海量、无结构或者半结构的数据集合。这类数据具有重复性、冗余性和多样性等特点,对搜索系统、问答系统、推理系统和预测系统具有重要意义。为了利用数据智能,我们须经过数据获取、去噪、抽取信息、建立索引等若干步骤形成可检索的数据集合。我们也可以利用搜索引擎的返回结果进行实时信息抽取,以避免存储和索引全网而付出的代价。

知识智能是指利用知识库、词典和规则进行推理的智能系统。目前很多搜索公司都建立了大型知识库。Freebase, Yago2和DEPEDIA等知识库可供免费研究和使用。结构化、半结构化和无结构化的数据经过信息抽取技术可获取实体、实体的属性和实体之间的关系来构成一个知识图谱。知识图谱随着数据的更新而演进,带动知识智能不断提升。

社会智能是指利用网友在互联网上直接贡献的内容(包括网页锚文本、用户标签、用户日志、用户反馈、社区问答、社会关系网络等)实现用户参与的智能应用。在社区问答中,用户提出问题,其他网友回答问题。久而久之形成的问答对库可以用来回答新的问题。这些问题和答案蕴含着丰富的社会智能。

值得注意的是,在企业里也存在着这样三种形态的智能信息。企业的网页、文档、电子邮箱、新闻、交易数据等可以看作是数据智能;企业的知识库、本体、产品目录、地址簿、客户关系等可以看作是知识智能;企业内部的QQ, LINC, YAMMER, Wiki的数据可以视作社会智能。利用这三种类型的智能信息,可以很好地支持商业活动,提高企业的运行效率。

以搜索引擎为例,给定一个查询表达式,搜索引擎进行排序时,会用到TF-IDF1,体现关键词和文档的匹配(数据智能),会用到page rank2(社会智能),也会用到实体、实体之间的关系(知识智能)。而且很多搜索引擎在展示结果的时候,会提供网页搜索、知识图谱以及社会关系网络等的结果。

多智能自然语言处理系统

自然语言处理研究的基本任务是理解句子和文章的要点,推断其意图,进行人机自然交互,实现搜索、文摘、自动问答、聊天机器人、机器翻译等多种应用。

搜索引擎的成功启发我们在创新的时候,要综合考虑数据智能、知识智能和社会智能。本专题以自然语言处理为例,邀请多位专家对相关科学研究方法与应用创新进行具体阐述。

在数据智能方面,建立安全可靠的云计算平台,实现对互联网和授权企业数据的及时获取、更新。根据应用的需要,对数据进行聚类、分类和主题抽取。利用数据的特点获取有标注信息的数据,比如有翻译标注的双语对照数据、有分词标注信息的数据、有地理位置信息的数据。同时,对数据的可靠性进行有效估计,对数据的质量进行自动评定。然后,利用数据建立适合于特定应用问题的模型,比如机器翻译和输入法中使用的语言模型。利用深度学习获得词汇的向量化表示,来计算词汇之间的语义距离,并训练更加强大的语言模型。

微软亚洲研究院刘树杰博士等人撰写了《深度学习在自然语言处理中的应用》一文,介绍了一系列在人工智能方面取得突破的深度学习方法,并在分析自然语言数据与语音图像信息差异的基础上,重点介绍了自然语言处理应用深度学习的三种基本方法,包括词汇向量化表示、语言模型和句法分析,并具体阐述了深度学习如何帮助机器翻译和情感分析来提升性能。

在知识智能方面,需要设计大规模知识获取系统,扫描互联网和授权企业数据,抽取实体、实体类型和实体关系,获得知识条目。自动检查知识库的不一致性,提高人工编辑的修正效率。判断知识库缺失的知识,并自动补充。对通过多种途径获得的知识库进行合并,去除冗余条目,合并相同知识条目,并消除不一致条目。利用机器翻译把一种语言的知识库翻译成其他语言,加快其他语言知识库的建设。通过多语言的知识库支持机器翻译和在线词典。研究进行知识库的快速查找和推理的图数据库系统。在知识库基础上,实现自然语言分析和合成、问答系统支持搜索和语音助手,建立通用或企业/专业领域知识管理系统。

中国科学院自动化研究所研究员赵军撰写的《从问答系统看知识智能》一文,以图灵测试为引子,回顾了问答系统的发展历程,分析了实现智能问答的主要局限和智能问答突破瓶颈的关键问题——大型开放域知识库,阐述了当前智能问答的研究重点,如实体消歧、关系语义分类、问句语义解析和知识推理等,并指出了未来的研究方向。

在社会智能方面,从社会关系网络的实时海量数据中抽取社会智能信息(包括问答对、主题、热点话题、用户观点、用户特征),来过滤灌水、软文等帖子,评定发帖和回复的质量与权威性,确定帖子的情感(正面、负面或者中性),评定发帖人的权威性和影响力,提供观点、摘要和对比摘要,改善新问题到问题-答案库的语义匹配问题,对用户关心的事件(比如竞选结果、比赛结果、票房收入、产品销量)做出预测,设计新型众包,鼓励网友贡献知识和答案。

清华大学教授李涓子等人撰写的文章《拥抱社会智能》,以社交网络的社会关系为背景,介绍了社交网络关系和社会影响力分析等微观分析理论,重点阐述了社区发现、代表用户预测、社区信息传播分析等宏观分析方法,并结合具体案例给出利用众包实现社会智能的途径。文章指出,应利用我国社交网络用户多、研究水平高的优势发展社会智能应用,拥抱社会智能。

哈尔滨工业大学教授刘挺等人撰写《基于社会媒体的预测技术》的文章,从社会媒体与社会活动的关联关系出发,系统阐述了利用社交网络进行消费意图挖掘的方法,即结合深度学习分析社交网络的短文本数据,挖掘显式及隐式消费意图;指出基于消费意图挖掘的电影票房预测模型,是利用社交网络实现社会智能的典型案例。文章还介绍了基于事件抽取和因果关系等预测方法的研究进展,认为社会媒体的智能预测具有重要的研究和应用价值。

为了实现多智能自然语言处理系统,应采用NLP2.0框架——把互联网当成一个研究平台,在其上进行数据获取、模型训练、实施,并与用户互动。因此,首先要建立强大的数据处理平台以支持网络挖掘、信息抽取、模型训练和系统实施,支持大数据的处理和分析;同时,把自然语言研究和用户需求、市场因素适度地联系在一起,使之实现互动;此外,需要同时考虑多智能协调,利用多种智能研究类人智能任务、开发互联网智能应用。

脚注: 1 TF-IDF(term frequency-inverse document frequency,词频-反文档频率)是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 2 又称佩奇排名。Page rank取自谷歌的创始人Larry Page。它是谷歌排名运算法则的一部分,是谷歌对网页重要性的评估,是衡量一个网站好坏的唯一标准。

作者简介

周明

CCF高级会员、杰出演讲者。微软亚洲研究院首席研究员。主要研究方向为自然语言处理、机器翻译等。

 

赵东岩

CCF高级会员、CCF中文信息技术专委会秘书长、本刊编委。北京大学研究员。主要研究方向为文本挖掘、语义信息处理等。

 

 

 

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限