文本情感分析算法_文本情感分析算法是什么
信息来源:互联网 发布时间:2025-04-19
本文提出了基于预训练模型和大模型的多层次情感分析框架,该框架系统地整合了特定公司的微观层面情感、特定行业的中观层面情感以及考虑文本影响的延迟和持久性的持续时间感知平滑方法。
原文链接:「链接」论文链接:https://arxiv.org/pdf/2504.02429 代码链接:https://github.com/LEw1sin/fin_senti“现有的金融情感分析方法由于采用单层次方法且忽视时间动态性,往往无法捕捉债券市场风险的多面性。
本文提出了基于预训练模型(PLMs)和大模型(LLMs)的多层次情感分析框架,该框架系统地整合了特定公司的微观层面情感、特定行业的中观层面情感以及考虑文本影响的延迟和持久性的持续时间感知平滑方法将该框架应用于自建的中国债券市场语料库(2013-2023年,139万篇文本),提取了每日综合情感指数。
实证结果表明,纳入情感因素后,信用利差预测有统计学上显著的改善(平均绝对误差降低3.25%,平均绝对百分比误差降低10.96%),且情感变化与重大社会风险事件和特定公司危机密切相关”1 背景 情感作为一种非理性冲击,会通过影响资产价格、实际生产和其他宏观经济变量来影响金融市场。
在金融领域的定量研究中,情感分析目的是从文本数据中量化投资者情绪,并作为传统金融和经济指标的有效补充特征,以感知风险或捕捉市场前景然而,金融文本的上下文微妙而复杂,现有情感分析方法存在诸多不足:大多数方法从文本片段中提取单一的整体情感,没有考虑文本对不同公司的差异化影响;没能考虑文本对行业的差异化影响,无法处理特定公司情感与整体行业趋势可能存在偏差的情况;未纳入情感持续时间,忽略了金融文本对资产的影响通常具有延迟和持久性的特点。
2 问题定义问题一:如何在同一文本的微妙复杂上下文中,从特定公司的角度精确分析具有不同取向的实体的情感?问题二:如何从特定行业的角度,推导从行业环境传递到相关公司的情感?问题三:如何通过考虑文本情感的延迟和持久性来捕捉其持续时间,使单个文本能够与其他文本相互作用,并将其影响从单个时间点扩散到整个时间序列?
3 方法定义单个文本的情感s为取值范围在[-1, 1]的连续值,其中s=-1表示悲观,s = 0表示中性,s=1表示乐观整个工作可总结为三个任务:1. 数据收集:收集用于下游流程的数据;2. 情感提取:整合从非结构化文本中提取的多视角债券情感;。
3. 债券违约风险预测验证:定量验证任务2中提取的情感有效性。
3.1 情感提取微观层面特定公司情感s_{alpha}分析(ABSA):微调一个BERT模型f1并连接一个多层感知机(MLP),在有标签的D1上进行监督训练,并在无标签的D2上进行推理通过BERT处理文本后,提取每个债券相关标记的嵌入,使用均值-最大池化算法获得债券的全局表示,再与句子级嵌入连接,通过MLP预测情感极性。
对于给定债券在某一天的微观层面情感s_{alpha, i, k},若当天有文本,则为所有涉及该债券的文本情感值的平均值;若没有文本,则为0最终得到特定公司情感矩阵S_{alpha}
中观层面特定行业情感s_{beta}分析(SLSA):将GPT作为代理进行中观层面分析使用少样本学习和思维链(CoT),让GPT端到端地生成给定文本相对于其主题的情感然后基于知识图G和知识库B进行检索增强生成(RAG),将主题映射到可能受影响的相关行业,从而获得特定行业情感。
在推理时,对于给定债券在某一天的中观层面情感 s_{beta, i, k},为相关行业情感的平均值最终得到特定行业情感矩阵S_{beta},并对其进行全样本z-分数标准化
3.2 聚合和持续时间函数通过查询债券所属行业,将微观层面情感s_{alpha, i, k}和中观层面情感s_{beta, i, k}相加得到每日综合情感s_{i, k}为解决文本时间序列稀疏和文本影响持续的问题,设计持续时间函数h对s_{i, k}_{k=1}^{K}进行插值和平滑处理,这里选择小波平滑作为持续时间函数。
3.3 债券违约风险预测以信用利差作为违约风险的代理因变量,采用滚动窗口机制进行债券违约风险预测(BDRF)建模使用五层Transformer编码器对时间序列数据进行编码,将最终隐藏状态输入MLP回归信用利差。
3.4 数据集有标签情感语料库D1:从RESSET和Wind下载6881篇正式中文文本,由金融专家以情感极性概率分布的形式为其分配软标签知识图G和知识库B:根据SWS RESEACH选择40个行业,定义117个主题。
知识图G是一个40×117的布尔矩阵,知识库B是所有117个主题的定义大规模无标签语料库D2:从Infobank和WiseSearch构建了一个跨度为11年(2013-2023年)的日频语料库,包含1390946篇文本。
将其分为微观层面推理数据集和中观层面推理数据集公司特征数据集D3:从iFinD收集了11年(2013-2023年)的6472只债券的45个特征,按7:1:2的比例将其在债券层面划分为训练集、验证集和测试集。
4 实验4.1 实验设置模型选择特定公司情感分析BERT(f1):使用BERT-base-Chinese,并比较不同的全局特征提取方法GPT代理(f2):以Qwen2.5-3B-Instruct为基础模型,并与其他模型在相同提示设置下进行比较。
嵌入模型 (f3):使用bge-large-zh-v1.5对文本进行编码BDRF模型(f4):应用五层Transformer编码器数据标准化对D3中的每个特征列进行z-分数标准化,以加速BDRF建模的收敛。
评估指标情感输出指标:精确率(Precision),用于衡量f1和f2的情感输出信用利差输出指标:平均绝对误差(MAE)和平均绝对百分比误差(MAPE),用于衡量f4的信用利差输出4.2 实验结果特定公司情感分析结果:
比较了均值池化、最大池化和均值-最大池化三种全局特征提取方法,均值-最大池化方法取得了最佳性能,精确率为88.27%。
特定行业情感分析结果:评估了三种基础模型在相同提示设置下的性能,Qwen2.5-3B-Instruct表现最稳定,精确率为75.0%可视化特定行业情感矩阵S_{beta}发现,所有行业表现出相似的情感模式,且在某些时间点会发生集体情感转变,与重大社会事件相对应。
对汽车行业的情感时间序列进行季节性分解,发现行业情感没有明显的季节性,噪声分布相对稳定
债券违约风险预测建模实证分析不同预测目标q的比较实验:纳入提取的文本情感后,模型在不同预测目标q下的预测性能有不同程度的改善当预测目标为q=2时,改善最为显著,MAE降低3.2539%,MAPE降低10.9658%。
特征分析提取的综合情感与其他特征没有显著的共线性。在短期信用利差预测中,宏观经济和金融指标贡献最大,提取的综合情感在46个特征中排名第17位。
消融实验单独使用微观或中观层面情感会导致BDRF模型性能下降,忽略持续时间函数会导致最严重的性能恶化。只有通过完整的框架,即聚合两个层面的情感并应用持续时间感知平滑,才能实现最佳的预测准确性。
持续时间函数比较实验与平滑样条和Daubechies 4小波(级别设置为3)相比,选择的Daubechies 4小波(级别设置为6)配置在统计显著的p值下产生了更稳健的结果。
违约债券情感轨迹可视化选择两只违约债券,可视化其情感轨迹,发现债券在违约前均出现了显著的情感转变,表明提取的综合情感可以作为市场的早期预警指标。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

