长文本情感分析_文本情感分析
信息来源:互联网 发布时间:2025-04-29
网购正在逐渐成为我们生活中必不可少的一部分,一部手机囊括万事,机器猫的口袋也不再是漫画里的幻想,颜如玉和黄金屋也把户口从书本转到了网络。但网购商品时,面对琳琅满目的物件,又不禁一脸懵逼,想在恒河沙数中觅得真金,恐怕少不了批阅万千评论,方能寻
网购正在逐渐成为我们生活中必不可少的一部分,一部手机囊括万事,机器猫的口袋也不再是漫画里的幻想,颜如玉和黄金屋也把户口从书本转到了网络但网购商品时,面对琳琅满目的物件,又不禁一脸懵逼,想在恒河沙数中觅得真金,恐怕少不了批阅万千评论,方能寻得真知灼见。

除了上图这样个性鲜明的评价以外,一些热门商品会有近万条评价(如下图的),都翻完恐怕天都黑了,即使仅考虑中差评也有三百多条,显然,这时候我们除了细致入微的调查,还需要一个化零为整,万剑归宗的整体意见。
与某宝不同,某点评网站便采用了评论信息抽取,将评论中所提到的该饭店特征进行抽取和归纳,简而言之,就是文本信息提取技术。
根据用户评论,该饭店便被总结出了“回头客,“分量足”,“约会圣地”等一系列特点例如,我们可以看出“第N次去”,“第三次去”这类的评论信息都被归到了“回头客”这一特征,可见其分类效果大致还不错但上面这些成果和准确性的一大前提是,我们一开始就知道它是好评还是差评了,然后再进行信息提取工作。
可是有一些评价并没有好评差评的打星(比如下面的微博截图),如果这些评价没有事先提供商品的评级信息,我们又该如何确定这条评论是好评还是差评呢?
即使是自带评级参数的各大购物网站,也需要对评论进行深加工比如某宝在售商品往往拥有大量好评,但其中很多评价只是无意义、无参考价值的默认好评,甚至存在刷单、刷好评的情况,这个时候对于评论信息的筛选和评价等级进行再分析就显得尤为重要了。
评论中存在大量无实际参考价值的默认好评这个时候我们就要用到文本情感分析了简单来说就是分析消费者评价里面的情感文本情感分析首先要确定文本举个栗子,如果把电脑算法看作学生,需要处理分析的评论语料看成考试题目,最关键的则是老师怎么教,教什么(也就是输入的指导性数据),只有方法得当,学生才能考上北大清华而非北大青鸟。
所以根据老师采用教材(训练数据)的不同,文本情感分析的方法,主要可以两种,一是基于机器学习的方法,二是基于情感词典的方法机器学习方法的步骤大致是这样的——1. 在网上搜集训练语料,让机器知道什么是正确的(和要处理的语料越近似越好,例如,想对影评进行情感分析,要去都瓣找训练文本,如果你去点评只能找到哪家菜做的好,什么,你专门研究沉默的羔羊,好吧,当我没说)(就好像教给小孩子一些例题);。
2. 有了训练文本之后,就可以提取文本特征了;3. 然后就是采用某种你中意的算法构建分类器;4. 有了分类器,再把目标语料输入进去,就等着出结果好了(有点像小孩子去考试)这类方法看起来很计算机科学,和语言学基本没多少关系,所以就不在这里详谈。
不过好处是速度快,准确率也值得称道,问题则是经常需要找与目标语料相匹配的训练语料。
两种方法的流程图(Taboada, 2016)采用情感词典则避免了每次都要费尽周折寻找训练语料的辛劳,因为不管你什么语料进来,我基本都用同一套词典或者规则去处理,这个方法也更偏向于规则驱动谈到构建规则框架,这时候,我们语言学家自然就有理由掺和进来啦。
下面我们就来简要聊一下情感词典构建的需要涉及的问题1. 词汇倾向很重要,建好量表是关键想要搞清楚文本的情感态度,大家第一反应想到的肯定是形容词,没错,科学家们也是这么想的好、棒、点赞、可怕、差等词的出现,往往直接就给了我们一个大致的文本态度。
但在情感分析中,仅仅知道消极与积极显然是不够的,很明显“好”和“棒” 尽管都表达积极倾向,可其程度显然是有很大差别的。因此除了进行态度分类,还要构建出一个态度层级。
除了形容词,其他词类也经常存在情感倾向名词(大作、灾难),动词(喜欢、讨厌)都很直接的表达出了情感倾向下面的例子就是一个包含了各词类的态度层级系统:强积极:完美、无私、点赞、棒棒哒 弱积极:不错、可以、还行。
中立:帮助弱消极:冷淡、有点问题强消极:糟糕、垃圾、可恶、坑爹2. 否定是个大问题,范围同样要想到很多负面倾向的表达并不是直接通过词汇的语义属性,而是借助于一些否定词来传达的,但这时候就给研究者们带来了一定的麻烦。
首先,在人们日常使用语言时,出于用语礼貌和委婉等方面的考虑,否定词的使用是要远远少于那些表达积极情感的词汇的,这就使得在文本中频率很低的否定态度词语可能会对文本的整体属性起到了决定性作用因此对于否定词语权重的考量,显然是情感分析时一个值得深思的话题。
再者,形容词前面添加一个否定词,往往并不是情感的完全反转,例如,excellent的情感属性是+5的话,not excellent显然不能粗暴的看成-5,因此当涉及对词语进行否定时,否定后的态度转变同样是多样的。
另外,否定词的管辖范围也同样值得思考,例如:I had stayed at WeXXin hotels before, and was never disappointed until now.我在WeXXin酒店住过,从没失望过,直到这一次。
这个句子的双重否定本来是表肯定的,但一个until now直接把积极倾向彻底终结3. 光靠词汇还不够,句式语用也需要上面提到的主要还是词汇和短语层面上的情感态度计算,我们还面临一些更大层面上的问题,比如说某些句式特征和语用特征。
语料库语言学家们告诉我们某些句式是专门用来表达人们对事物的评价的例如具有表达评价功能的句式——“这质量对于这价格……”,再比如一些表达主观性的句式——“我个人觉得……”,这些句式都对寻找评价语句有一定的指导作用。
除了具有评价功能的语句,在情感分析中还往往需要提出那些评论中的无关信息,因为这些无关信息很容易对最后的评价结果造成干扰因此寻找到最相关的评价语句,并给其赋予相应的权重同样重要说了这么多,文本情感分析还有其他用处吗?。
别说这技术要是应用得当还真能让你运筹帷幄之中,决胜千里之外。
不仅是网购选商品,约会选饭店这些生活中的小事用的到文本情感分析,大到政事参谋,总统竞选同样有它的用武之地以及,它还可以用来炒股很多科学家研究发现民众情绪波动与股票价格的波动具有一定相关性当在如世界杯、欧洲杯的国际球赛中输球时,当地的股价指数会受到显著的负面影响。
甚至天气变化也会波及股市给一点阳光,股票收益率便会和人们的心情一样灿烂当然这其中研究最多的还是Twitter情绪指数,学者们搜集Twitter上关于一些关于股票的评论,进行情感分析,然后将其作为参数构建相关股票预测模型,其结果喜人,准确率相当可观。
看到这里,读者们可能会觉得这文本情感分析是一大神器啊,浩如烟海的信息,想归纳就归纳,群众态度搜搜微博就知道了,都不用开听证会,股票价格都能预测,岂非点石成金尽在掌握但显然,这一技术还远远称不上十分成熟,仍有一定的缺陷,以下面这个淘宝差评(图片来源于网络)为例:。
如果不说这是条差评,计算机还真不一定能识别出来,你看吧,评论中并不具有典型的情感倾向表达句式和词语,如果不看图片,或者不联系实际生活(搬砖一词可能有一定负面含义),纯粹依靠计算机算法的情感分析技术是很难做出正确分析的。
网购真是心(fèi)累(shí)啊……参考文献Ceron A, Curini L, Iacus SM. 2015. Using sentiment analysis to monitor electoral campaigns: Method matters—evidence from the United States and Italy.
Soc. Sci. Comput. Rev. 33:3–20Liu B. 2015. Sentiment Analysis: Mining Opinions, Sentiments, and Emotions. Cambridge
, UK: Cambridge Univ.Press.Hunston S. 2011. Corpus Approaches to Evaluation: Phraseology and Evaluative Language.
New York: RoutledgePang, B., & Lee, L. 2008. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval
, 1-135.Taboada M, Brooke J, Tofiloski M, Voll K, Stede M. 2011. Lexicon-based methods for sentiment analysis.
Comput. Linguist. 37:267–307
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

