序言
本书是笔者在平顶山学院承担的教育部人文社会科学研究一般项目计划“面向信息处理的汉语文本情感结构的描写机制与资源建设研究(19YJCZH198)”的支持下,对近年来在文本观点分析研究方面取得的一些成果进行的梳理和总结。
观点分析是一个文本计算问题,包括对事件、主题、实体及其属性的评价、态度等方面的建模和识别。针对不同用户的需求,可衍生出具体的子任务,例如,企业希望获得公众或消费者对其产品和服务的意见,潜在客户也希望在使用服务或购买产品之前了解现有用户对产品不同属性的点评。由此可见,观点分析问题是一个由许多方面和子问题组成的复杂问题。本书针对目前的应用需求和存在的研究难点与问题,对面向社交媒体的观点分析中的若干子问题进行深入研究,全书共7章,主要内容及各章节安排如下:
第1章是绪论部分,先介绍了研究的背景意义,接着简要讨论了研究进展,然后分析了传统方法中存在的问题并引出本书的研究内容介绍,最后是论文的结构安排。
第2章讨论面向产品评论分析的短文本情感主题模型。此部分先讨论了研究的动机及方案,然后详细阐述了短文本情感主题模型的生成过程、推断算法,并通过定性和定量分析实验证明了方案的有效性。
第3章对评价目标短语分组问题进行了研究。此部分主要对评论文本的分布特点进行了分析,然后对提出的加权上下文表示方法和有约束的K-Means方法进行了详细阐述,最后通过在公共数据集上的实验,对提出的方法进行了验证。
第4章从特征学习角度提出了基于深度度量学习的方法来处理评价目标短语分组问题。此部分先分析了已有方法存在的不足,然后详细讨论了深度距离度量学习方法中的注意力模型和多层感知机非线性变换模型,最后通过实验对提出的方法进行了验证,并进行了简要分析。
第5章讨论基于图方法的观点摘要问题。在分析了已有工作的不足之后,该章介绍了基于HDP主题模型的句子主题群组分布统计方法,然后介绍了基于句子主题群组和句子对关系的超图构建方法,并提出将顶点增强的超图随机游走算法用于摘要中的句子排序,最后给出了评估摘要方法效果的实验结果。
第6章讨论面向Twitter观点分类的情感增强词嵌入学习方法。此部分先分析了情感增强词嵌入学习的原理和目前方法的不足,然后阐述了一种综合利用情感词典资源与距离监督信息的多级别神经网络词嵌入学习模型,最后给出了实验评估结果。
第7章总结本书的主要工作和创新,并对今后的研究工作进行了探讨。
文本情感分析是文本分析领域的核心关键技术之一,本书探索的系列方法为文本情感分析各子方向提供了一些有效、实用的解决方案。相信通过更多科学研究人员的努力,文本情感分析研究将更加完善,应用将更为广泛。
限于笔者水平,本书不免存在疏漏,恳请读者斧正。