社交媒体反映的社会舆情将开启一个新的机遇,社交媒体上的内容或许能够提供预测未来市场动态的线索。如今,是时候将其量化了。
机器学习和人工智能技术已经为量化基金经理打开了新的大门,借助这些工具,基金经理们可以从全球任何传统和非传统数据源中挖掘有价值的信息。
投资者开始逐步从推特和新闻中的对话及互动内容中找到有价值的洞见。
这无异于创造了一个大好机会,因为每个人都在寻找先于其他市场参与者的机会,来获得与市场波动相关信息;然而,为了抓住这种机会,投资者就必须适应一些量化操作。 识别一个可靠的信号并不像看新闻或在推特上关注合适的人那样简单。这需要依靠人的直觉来巩固投资策略,还需要建设架构来处理大量数据,以及使用机器学习来对数据建模。
清洗并处理社交媒体数据
随着近年来科学技术取得突破性成果,对多变量数据的转换变得更加高效。其中一个方法是运用自然语言处理(NLP)工具,从被忽视的非结构化文本中挖掘并定位相关信息。
“这涉及到在正确的语境中定义词汇,”彭博高级量化研究员兼量化研究解决方案部门负责人Arun Verma表示。“Cook和Apple本身的英文词义可能会指向为一种食谱,但如果它们一起出现在一段文字中,那很可能说的就是苹果公司(股票代码AAPL)。”
一种使用的方式是“命名实体消歧”(named entity disambiguation),它可以确定在推特流或新闻报道中与企业名称相关的信息。这是文本进行分析处理的必要步骤。
然而,在适配模型之前,人要做的一件事是在训练机器的基础上对新闻报道加以标签化分类,一部分被标签的数据被用于教育模型。一种算法可以在样本数据中研究不同的关系,然后再用经过完全培训的分类程序来测试其他观测值。通过使用高质量的,经标签分类培训过的数据可以提升模型找到一个可以自我重复的模式的几率。
为了对文字进行正确的标签化处理,培训工具需要由人类专家来进行预筛选过滤,专家会站在长期投资者的角度对每一则新闻报道的情绪度予以打分。他们完全专注于文字而不是结果,所以这里的评分并不反映任何随之将出现的价格波动。一旦模型处于在开发状态,将会进行进一步的测试来检验人工分类的精度。
在噪音中找到信号
从此处开始,被标签的数据可以被注入到机器学习模型中去了,例如支持向量机(SMV),它可以决定该新闻是否属于某个具体类别。
SVM培训算法将文本根据不同特性分成两个类别。当分析情绪指标时,新闻报道会被划分为正面、负面、中性这三档,但有必要找到更精确的划分方式。Verma指出,彭博采用了多种支持向量并两两分类,把情绪指标这类多等级的序列结果变成一系列的二元问题。
每一种SVM都是出于高数据维度状态,采用的是词袋框架——这是一系列金融和投资相关的词语目录。这种培训算法能够发现不同类别间的最优分隔值:
“三元分类的结果被输入到K近邻算法(KNN)等新的机器学习模型中,他们可以将那些情绪指标不明显的新闻报道归类为三元中的一元”,Verma表示。
K近邻算法是指,在与目标文章近似的文本中找到的训练数据,再根据实例来对新闻报道进行分析和归类。
如果要检验机器学习模型是否运行良好,下一个步骤将是建立混淆矩阵,绘制相对于实际分类的可预测分类结果。
正确的预测结果会落在对角线上,而错误的分类将落于对角线外。混淆矩阵不仅能够对算法做出肯定或否定,而且容许对初始数据进行标签的人类专家提供意在进一步改进的初始点。
当然,如果要解决所有问题可能导致过度拟合。在不引发过度拟合情况下处理错误问题的经典方式是将数据集分为三类:
当训练集的改良与测试集不符,那就是代表停止微调模型的强信号。
“最终,我们希望机器可以帮助改善人类的行为,反之亦然,”OptiRisk Systems的创始人兼首席执行官Gautam Mitra先生表示,就在近日的一个网络研讨会上谈到了社交媒体和新闻数据时。
网络研讨会: “推特正在推动市场:如果将推特发展为新闻源之一。”
情绪指标的长期表现
当模型和数据都处于良好状态时,它们的结合将成为预测价格变动的有力工具。自然而然地,对企业或行业的积极情绪可能转变为增持加仓行动,而消极情绪可能是抛盘前的预警。
在近期的网络研讨会上,Verma展示了在三种不同的多-空策略中分析交易情绪的益处:
每一种策略都会在开盘前将股票按当日情绪指标来排序,并在收盘时关闭现有仓位。