居然可以这样汽车评测数据官方网站(小鱼儿数据官方网站)
信息来源:互联网 发布时间:2023-10-05
因此,本项目基于互联网舆情数据搭建了一套互联网负面舆情预警系统,其应用领先的大数据/NLP/AI技术,迭代学习金融风控专家经验,让机器学会自动阅
项目意义作为企业负面信息曝光和传播的重要渠道,移动互联网充斥着可能曝光企业存在着各种潜在违约风险的舆情事件,银行业若能及时有效地获取其客户的负面信息并适时进行干预,则能有效避免贷款风险,减少自身损失因此,本项目基于互联网舆情数据搭建了一套互联网负面舆情预警系统,其应用领先的大数据/NLP/AI技术,迭代学习金融风控专家经验,让机器学会自动阅读,实时巡查海量互联网新闻信息,发现风险预警信号,实现企业负面事件的智能预警,让企业风险无处遁形。
需求分析作为企业负面信息曝光和传播的重要渠道,移动互联网充斥着大量企业的负面事件,如骗汇、涉诉、违规、亏损、欺诈、破产、造假等有效利用互联网信息就相当于拥有了几亿网民群体监督的力量,可以在第一时间发现企业风险的蛛丝马迹,实现实时预警,提前预测传导,让企业风险无处遁形。
互联网信息具有数据量大、来源广、噪声多、时效性强、非结构化等特点,仅依靠传统方法进行风险研判已无法满足人们对于风险防控的实时性、精准性、全面性、预测性要求而对于企业负面事件的智能风险预警,传统方法需要花费大量时间、人力和金钱成本。
因此,借助大数据挖掘、复杂网络分析、深度学习等技术,以较快速度准确全面识别企业的互联网负面事件、深度分析风险传导的潜在范围,探索风险智能预警的研究显得至关重要。
互联网舆情智能化处理对金融领域日益重要海量互联网信息,如新闻资讯、政府信息、企业招聘、电商数据、社交媒体中都包含大量重要财经信息但是互 联网信息数据量大,噪声多,类型复杂多样,包含大量非结构化的文本数据,需要有强大的舆情智能处理工具。
预警鹰眼系统
优势对比
算法流程本项目定位于建设公司级的舆情智能处理工具集,在遵循数据治理相关规范的前提下,通过网络爬虫和大数据等技术,将爬取的海量网络舆情数据、已获得官方授权的舆情数据、公司内部已有数据进行整合拉通;利用机器学习、自然语言处理等人工智能技术,先进行内容去重、主体识别、事件标签标注、情感分析、舆情摘要、舆情分类等基础通用加工,再结合企业关联关系和特定业务场景进行舆情传导、事件聚合、事件发展脉络跟踪、事件热度分析、情感量化等深度专用加工;建立灵活高效的订阅机制,针对不同业务应用系统的需求进行个性化推送,实现企业舆情风险画像和负面舆情监控预警,并为债券投资实时辅助决策、舆情信用风险量化评估提供支持,提升舆情服务的全面性、精准性和时效性。
数据采集海量互联网信息,如新闻资讯、政府信息、企业招聘、电商数据、社交媒体中都包含大量重要财经信息高效及时地采集数据是舆情监控的基本前提信息来源范围需求:可以爬取的数据源包括但不限于:财经报道新闻、知名媒体公众号新闻、行业新闻、微博、微信公众号,以及雪球、股吧、论坛、贴吧、豆瓣等另类数据源。
负面识别针对现有基于深度学习的事件抽取方法往往依赖于前置实体抽取任务的输出结果,存在严重的错误传递问题本项目从实体未知的角度出发,对实体与事件之间的依赖关系进行分析与建模,通过混合神经网络模型完成实体与事件的联合抽取,避免传统多阶段事件抽取任务的错误传递问题,提高企业互联网负面事件预警的精准性。
负面去重针对现有基于图表示的事件去重方法需要与所有子图中的全部节点进行相似度计算本项目从事件表象和事件关系进行分析与建模,采用基于图的事件表示方法,设计在线与离线相结合的事件去重模型提高传统事件去重方法的性能,达到提高企业互联网负面事件预警的实时性。
负面分类针对现有的负面新闻列表我们采用投票算法来精准划分负面新闻的类别。
量化评级对目标主体和关联主体进行自动化扩展,支持舆情传导计算同时监控千万级目标企业,并自动对其关联信息(简称、产品名、别名、近期关联热点词)进行扩展,保证对目标企业信息覆盖的全面性同时,能够深入分析目标企业的舆情事件对关联企业的影响,并量化其影响程度。
智能适配业务需求的预警和量化评级舆情智能处理系统对舆情事件进行标签精准标注,从而实现针对不同应用场景的信息精准推送系统能对舆情事件要素进行精准抽取,结合定性和定量因素,综合考虑事件类型、企业风险承受能力、事件时效性等多种因素,对舆情事件对目标企业的风险/利好的影响程度进行精细化的量化评级。
摘要生成根据用户需求定制化的舆情摘要生成。系统对舆情信息,能够以目标企业为主体,以事件标签引擎为主线,对多个舆情事件中的要素信息进行抽取和合并,自动生成根据用户定制的信息展现优先级排序的摘要文本。
风险预警
预警类型
负面事件画像
企业画像有一套对企业画像信息从信息采集、模型识别到运营进行管理的平台该平台能够定期从多种数据源网站爬取和校验公司股票代码、高管、债券名称等信息;对于离线平台中的画像数据,系统将会通过计算置信度,挑选出可能有错误或者重复的条目推送至管理平台,以便运营人员及时跟进核实确认。
风险评估
系统架构本系统建立了公司级舆情智能处理的统一框架,同时又能支持各个部门的个性化部署和配置舆情智能处理系统由数据层、分析挖掘层、应用层等三大模块组成并采用组件化方式开发和部署,其中数据层包括外部数据采集组件、内部数据采集组件、外部前置预处理组件、内部数据对接组件和数据融合分发组件;分析挖掘层包括部门舆情分析组件;应用层对应舆情门户系统。
系统架构如图所示
技术框架本系统跟踪自然语言处理和机器学习领域各项前沿技术,形成了领域定制化的知识学习引擎,建立了一套完整且适合金融领域舆情智能处理的技术体系。
技术创新
简称生成中文机构名简称生成模型:中文机构名简称生成模型结构如图3-3所示,该模型分为简称生成和简称过滤两个阶段在简称生成阶段,包含两个简称生成模型,首先将机构名组成成分标注语料放入BERT-BiLSTM-CRF模型1中进行训练,得到机构名成分分类模型,然后把结构名组成成分与简称语料放入CRFPP模型中进行训练,得到第一个简称生成模型。
基于第一个简称生成模型,可以得到基于组成成分构成的简称候选为了补充一些特殊情况的候选简称,如“中民投”、“外管局”等,又基于机构名和简称语料放入BERT-BiLSTM-CRF模型2中进行训练,得到第二个简称生成模型。
在简称过滤阶段,将综合简称声调、位置、置信度等特征信息过滤掉一些错误或者容易发生歧义的简称,从而得到中文机构名的最终简称。
事件抽取基于混合神经网络的实体与事件联合抽取模型结构如图所示,模型主要通过共享实体抽取和事件抽取的底层参数,联合训练,任务之间相互促进从而提高事件抽取的准确率该模型主要包含三个部分:编码模块、实体抽取模块和事件抽取模块。
首先,在编码模块,先通过BERT模型得到融合好词向量和字符向量的编码序列,再通过BiLSTM模型提取序列中的全局信息得到句向量并往后进行传递其中,实体抽取与事件抽取共享BiLSTM模型输出的编码信息,实现两个任务之间的底层参数共享和协同促进。
编码模块之后分别连接实体抽取模块和事件抽取模块,实体抽取模块通过CRF模型来进行解码,得到实体的标注序列,最终完成实体的抽取将已抽取的实体信息输入到注意力层和卷积层,过滤掉噪声信息,再融合BiLSTM模型编码好的句向量得到包含全局与局部信息的句向量,最后通过全连接层完成事件的抽取。
事件去重事件去重模型:基于图的事件表示方法,在判断某个事件是否为重复事件时,需要与所有子图中的其它事件进行相似度计算,导致事件去重的时间复杂度非常高,无法满足实时事件去重的要求以图3-6为例,如果要计算事件B1是否为重复事件时,B1需要分别与子图A和子图C中的所有事件进行计算,最终判断事件B1是否为重复事件。
风险传导基于图卷积神经网络的风险传导模型结构如图所示,首先将代表网络结构的邻接矩阵A和T种网络模式作为输入,生成T个网络模式矩阵其次,以T个模式矩阵为基础,联合注意力机制构建图卷积层通过卷积核与网络模式矩阵进行图卷积操作,实现单一网络模式中结构与语义信息的融合。
通过多个卷积核的池化操作,实现单一网络模式中节点表征的优化再通过注意力机制实现多个网络模式的语义融合,体现不同网络模式对同一节点表征的重要性差异然后,通过堆叠多个图卷积层作为编码机,将网络节点从高维稀疏空间逐渐压缩到低维空间,生成最终低维向量Z。
知识学习引擎规则引擎与机器学习的有机结合:语义解析引擎作为规则引擎,可以集成专家经验,标注训练集,为统计模型提供语料,并解决一些统计模型难以解决的疑难案例;基于机器学习的统计模型可以从语料中捕捉更多的规律,扩展系统对多样化实际文本的处理能力,还可以用于计算规则的置信度,帮助规则引擎提高准确率。
领域定制知识学习引擎技术路线如下图 1-3 所示:
自动书写引擎根据用户需求定制化的舆情摘要生成系统对舆情信息,能够以目标企业为主体,以事件标签引擎为主线,对多个舆情事件中的要素信息进行抽取和合并,自动生成根据用户定制的信息展现优先级排序的摘要文本定制化舆情摘要技术路线如下图所示:。
负面知识库领先的互联网金融舆情处理知识库建立了行业领先的互联网金融舆情处理知识库,不仅积累了丰富的词库和领域规则,也标注了大量领域语料,并基于这些语料针对实际应用场景训练了定制化的分析模型已建立的互联网金融舆情处理知识库如下图所示:。
交互式智能评测体系形成了交互式智能评测体系在系统的研发过程中和运营上线后,交互式的智能训练与评测是持续进行的在这种过程中,从语料到模型都会不断进行迭代优化,不断改进分析效果交互式智能训练与评测体系技术路线如下图所示:。
开放式知识注入技术支持开放式知识注入领域专家的经验对于解决面向业务场景的实际问题十分重要基于语义解析引擎和知识库管理平台,领域专家在系统运营人员的帮助下,可以方便地通过书写规则来实现知识注入;注入的规则通过知识库管理平台进行校验和修正,保证规则的有效性。
开放式的知识注入在系统运营上线后仍可以持续进行,保证系统不断优化升级,可以满足一些新的需求开放式知识注入技术路线如下图所示:
案例分析
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

