



摘要:由于股票市场具有复杂性、动态性和混乱性等诸多特点,其波动易受各种信息源的影响,因此对其预测具有相当的挑战性,而机器学习方法的应用在目前取得了一定的成功。文章从深度学习方法出发,融合多种数据源,提出一种异构数据融合驱动的神经网络模型,探索股市舆情、量化指标与股价波动的内在联系,以及媒体信息对股市波动的影响机制。
关键词:多特征融合;舆情分析;股市预测;LDA;神经网络
中图法分类号:TP181 文献标识码:A
1 引言
由于金融時间序列数据存在复杂、非线性、难以预测的情况,因此股票市场的预测任务充满挑战[1] ,金融业界也一直在寻找能够系统地预测未来资产收益的方法,尝试预测资产的有效收益,然而股票市场处于极其动荡和嘈杂的环境中,这项任务无疑困难重重。传统股票预测方法往往仅依赖历史定量数据进行拟合分析,如价格、交易量、周转率等。作为定量数据的补充,文本信息也成为部分研究者关注的对象[2] 。使用计算机技术抽取海量舆情观点,对文本进行挖掘爬取处理,将特征进行整合,可以分析出股票市场发展动态的优劣,为每个投资者提供各自不同且具有针对性的建议和方法。随着文本情感分析的高速发展,简单文本极性判断已不能满足人们对互联网的需求,跨学科、跨平台的研究,将文本分析技术广泛应用在不同的领域。将引导机制、营销理论以及多元盈利模式融合,以提高模型性能。随着数据挖掘的深入,面向股票市场领域的细粒度情感分析技术的应用解决了隐式情感难提取、文本不规范等问题。学者正应用实践企图证实舆论与股票市场的相关性以及试图应用舆论预测市场的走向[3~5] 。
本文主要讨论了量化指标、股市舆情与股价波动间的潜在关联,为金融从业者、研究者提供了一种全新的视角,以行为金融学对行为人决策的研究成果为研究基础,寻求投资者在金融市场中可能会受到来自认知系统的各种偏差及对其信息处理和决策过程的影响,以期建立一个从投资者情绪到投资者行为,再到投资者行为对金融市场和实体经济影响的科学研究模式。
2 文献综述
多源数据融合技术是数据挖掘与机器学习领域中一种常见的特征处理手段,基于人工智能、模式识别、统计推断等,在医疗诊断、目标识别、自动驾驶等领域都有着良好的应用,通过融合不同数据源、不同粒度的信息,可以更好地捕捉数据之间的高阶特征交互。
在国内,陈晓美[6] 开展了对于Web2.0 的网络评论信息的分析研究,通过领域知识进行互补,构建了基于“观点⁃领域知识⁃主题”的新型知识搜索体系,以发现网络评论中的观点知识;郭光明[7] 设计了概率主题模型LUBD⁃CM,并将其应用于刻画用户信用属性,融合社交数据中用户信用画像的有效信息,以搭建用户信用画像预测系统;贺雅琪[8] 根据Dempster⁃Shafer证据理论,提出了一种数据融合框架,实现了对多源数据的决策级融合;邓烜堃构建了一种基于有限布尔兹曼机的深度自编码器,实现了对高位金融数据的特征降维并构建了回归模型预测股价,通过实证表明自编码器提取特征的效果优于传统主成分分析与因子分析等方法;王乾基于股票历史数据、财经新闻数据、股票社交舆情3 种信息源,使用LSTM 网络对个股涨跌趋势进行预测,通过实证证明了多源数据预测的合理性;黄洁云提出充分利用股市多源数据,并使用小波变换捕捉时间序列波动趋势,同时对文本数据使用BERT 模型提取其文本情感特征,融合量化特征与文本特征并预测股票波动;张露设计了一种SBV 多源信息融合模型,有效解决了财务预警问题中的有效样本不平衡问题,实现了对股市财务预警的精确预测;刘政昊从知识关联视角构建了一个金融领域知识图谱,尝试发现股票之间的关联性与隐含特征,为投资者提供指导建议;耿立校提出了一种基于多源异构数据的LSTM 模型,结合了历史交易数据、量化指标数据、文本评论数据3 类数据,对股票波动走势进行实时预测,并验证了其有效性和可行性。

