文章插图
全文链接:http://tecdat.cn/?p=31702
情感分析,就是根据一段文本,分析其表达情感的技术(点击文末阅读原文获取完整代码数据) 。
相关视频
比较简单的情感分析,能够辨别文本内容是积极的还是消极的(褒义/贬义);比较复杂的情感分析,能够知道这些文字是否流露出恐惧、生气、狂喜等细致入微的情感 。此外 , 情感的二元特性还可以表达为是否含有较大的感情波动 。也就是说,狂喜和暴怒都属于感情波动 , 而宠辱不惊则属于稳定的情感状态 。
研究目的
本文基于R语言的自然语言处理技术 , 针对企业的财务信息、产品质量等文本信息 , 帮助客户对企业和产品进行情感分析和情感分类,并将这些数据可视化呈现 。本文选择了A股上市公司相关数据,通过构建R语言的文本情感分析模型对文本情感进行分析 , 并以此为基础对企业进行情感分类 。附件说明:其中基础词典是要通过文本挖掘的结果扩展的词典了,也是研究的主要目的(分词的时候可以用到);
【中文情感分析词典 基于词典情感分析】
点击标题查阅往期内容
01
02
03
04
语料库资源是要进行文本挖掘的数据源 。
研究的目的就是在文本分析结果的基础上扩展用户词典 , 这些需要在文本挖掘的基础上进行扩展 。其中语料库一共是10个文件,需要的是一个文件出一个结果 。最后是要对比这10个文件的 。还有就是语料库是pdf格式 。
电池灯亮是什么故障?电池显示维修怎么消除车主在日常行车的时候,如果车辆的某一系统、某一零部件出现故障,就会在仪表盘上亮起相应的故障灯,那么仪表盘上的电池灯亮是什么 。
出现的结果应该是类似这种的:
中文财务关键词 05年 06年 07年 08年 负面词 184 107
正面词 48 66
不确定词 22 19
诉权词 57 31
读取词库数据
Litigious=read.table("Litigious Words.txt")Strong=read.table("Modal Words Strong.txt")Weak=read.table("Modal Words Weak .txt")Positive=read.table("Positive Words.txt")Uncertainty=read.table("Uncertainty Words.txt")Negative=read.table("Negative Words .txt")
文本清理和分词
qrxdata=https://www.45baike.com/post/gsub("\n","",qrxdata)words= lapply(X=qrxdata, FUN=segmentCN) ;
初始化统计结果
x=wordspwords=positivenwords=negativeLitigious=LitigiousStrong=StrongWeak=WeakUncertainty=Uncertainty
npwords=0nnwords=0nLitigious=0nStrong=0nWeak=0nUncertainty=0emotionType <-numeric(0)xLen <-length(x)emotionType[1:xLen]<- 0index <- 1
词法分析
词法分析 。它的原理非常简单,事前需要定义一个情感词典 。比如喜欢这个词我们定义为1分 。那么我喜欢你这句话 , 我和你都是中性词,均为0分 , 喜欢为1分,这句话的总分就是1分 。我喜欢你,但讨厌他,这样一句话中有讨厌这个词,在情感词典中分数为-1 , 那么整句话的得分就是0 。这样,我们就可以对每一个文本进行分词,然后使用内连接(inner join)来提取其中的情感词语,并根据情感词语的得分,来评估这段文本的情感得分 。
for(index in 1: xLen){x[[index]]=unique(x[[index]])yLen <-length(x[[index]])index2 <- 1for(index2 in 1 :yLen){if(length(pwords[pwords==x[[index]][index2]]) >= 1){i=pwords[pwords==x[[index]][index2]]npwords=npwords length(pwords[pwords==x[[index]][index2]])if(length(i)==0)next;duanluo=substr(qrxdata[index],regexpr(i,qrxdata[index])[1]-20,regexpr(i,qrxdata[index])[1] 20)if(regexpr(i,duanluo)[1]<0 )next;cat(studentID,"\t",i," \t","DOC",index,"\t ","pos"," \t",duanluo," \t",length(pwords[pwords==x[[index]][index2]])/length(x[[index]])," \
按年份和词性分类汇总成表格
1=data.frame("正面词"=npwords,"负面词"=nnwords,"不确定词"=nUncertainty,"诉权词"=nLitigious,"强语气词"=nStrong,"弱语气词"=nWeak)
=rbind(,1)
ggplot可视化
将每个文档的词性输出,并按照词性和年份绘制变化趋势:
获取全文完整代码数据资料 。
本文选自《R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化》 。
点击标题查阅往期内容
改变关机画面:记得以前可以改变开机画面吧 , 现在可以对关机画面动手喔!logow.sys 是等 待关机,logos.sys 是最后丑丑的 您可以安全关机"_"都是 bmp 档,快动手 吧 , 原图是 320x400 ,256色!但是最后win95会把他放宽170%所以你可以先准 备一张 544x400 的图 再把这张图 resize 成320x400 再 rename 一下档名 就可以啦!(只能 256色喔 )而且最好注意一下色盘的问题*开机画面也可以 喔!logo.sys....
鸟的忠告:有一天,一个猎人捉到一只会说话的鸟儿 。鸟儿哀求:放了我,我会给你3个宝贵的忠告 。猎人得意洋洋地说:你先告诉我,就放了你 。于是鸟儿说:第一个忠告 , 做事不要懊悔;第二个忠告,别人告诉你的一件事,你认为不可能的就不要相信;第三个忠告 , 当你爬不上...
推荐阅读
- 美国情感综艺 情感综艺有哪些
- 基于情感词典的文本情感分析代码 基于情感词典
- 综艺情感节目有哪些 情感综艺有哪些
- 女性情感话题有哪些 女性情感话题
- 2020年中国第三方检测行业发展趋势分析 2020年中国第三方检测行业发展趋势分析
- 夫妻情感综艺有哪些 情感综艺有哪些
- 宫怨诗表达的情感有哪些 表达的情感有哪些
- 古诗所表达的情感有哪些 表达的情感有哪些
- 基于情感词典的情感分析结果评估 基于情感词典
- 女性情感话题文案 女性情感话题