数据来源的挖掘是现代交易策略的必要部分,而主题标签是其中的关键,帮助机器挖掘独特的数据集来探测市场波动信号。
算法使用的兴起给华尔街带来了革新,交易员和投资者寻求通过高性能机器和独特的数据集来捕捉市场波动信号。
这使得对新闻消息进行系统性的分析成为一个有吸引力的想法。企业得以快速获取对于新闻和社交媒体的分析,并将之作为数据驱动工具用于品牌管理和定向广告。
如今,同样的内容被量化对冲基金以更高的精度,更快的速度进行处理,从中挖掘出来的预测信号有助于改善投资决策。
文字新闻一般是透过自然语言处理(NLP)技术来分析,这项计算机技术已经存在了数十年。
NLP任务的一个例子就是情绪分析,每则新闻故事都可以根据其潜在倾向来进行归类,从而解读新闻对股价的潜在影响。
举例而言,一则有关季度盈利好于预期的新闻可能被评分为积极情绪,进而带动相关股票价格上涨。而分析师下调评级的消息可能被解读为消极情绪,这将导致股价回调。
考虑语境
由于市面上可获得的开源NLP工具包和服务变得越来越多,一个有吸引力的做法是建立一个系统把现成的算法和实时新闻结合起来。
"不过,当机器试图解读特定语言时,问题也随之而来。比如“magnificent”(中文译为宏伟,巨大)这个词在许多算法中通常都被理解为积极信号,即使当它只是出现在酒店名称中,比如Magnificent Hotel Investments。 " 根据Ivailo Dimov,彭博量化研究员及数据科学家。
如果没有对金融领域专业知识有针对性培训,多数一般用途的NLP算法都无法辨别出这些细微之处,这会导致情绪评分的偏差,并对交易表现产生致命后果。Dimov表示:“如果您无法辨识出该文本适用于机构还是商业情况,会导致最终数据杂乱且准确率低下。”
此外,新闻也会被标记多种主题标签,进一步将内容和主题分类,例如科技主题标签是<TEC>,分析师调整评级为<ANACHANGE>,下调评级是<ANACUT>。Dimov表示:“通过这些主题标签,我们可以搜集到比原始材料本身更多的与情绪相关的信息。”
通过对组件的分析改进组别编码
自从彭博在多种信息来源下将数据收集并内在化后,他们逐渐开发出一套效果强大的解决方案,大大提高了主题标签的准确度。
多数情况下,一则新闻的主题标签是多于必要水平的,目的是让机器能够在避免潜在错误的同时抓取所有相关的信息。与此同时,整个分类法包含上万种特殊标签,且以严重倾斜的长尾分布。
这意味着如果试图利用主题标签来进一步强化数据驱动策略,将会是个非同寻常的挑战。适当的数据降维能够将含义近似的标签联系起来,这样才能让这些数据被整体地看成一个集合。
然而,传统的技术,例如潜在语义分析(LSA)基于的是共现术语(co-occurence),而由于数据高维、简约分布,反而呈现出常杂乱的结果。后果就是,即使不存在明确的逻辑联系,一些新闻也被放在同一个主题标签之下。
Ivailo和他的同事,彭博高级量化研究员Daniel Lam共同开发了一个名为 π成分分析(π-component analysis) 的新数学方法,来更好的理解和归类那些编码,并以一种最大化成本节约的方式。
当和情感分析结合起来时,被π成分分析识别的主题标签集会系统化的显示出,情绪对某些股票价格会有更强影响,从而证明结构性的新闻来源在寻找阿尔法会起到积极作用。