A mineração de fontes de dados é um componente essencial das estratégias de trading modernas — e as tags de tópicos são fundamentais, ajudando as máquinas a extrair conjuntos de dados exclusivos para sinais de movimento de mercado.
A ascensão dos algoritmos está dando uma reviravolta em Wall Street à medida que traders e investidores buscam máquinas de alta potência e conjuntos de dados únicos para sinais de movimento de mercado.
Tudo isso torna a análise sistemática de notícias uma ideia atraente. As empresas foram rápidas em adotar a análise de mídia social e notícias como uma ferramenta orientada por dados para gestão de marca e publicidade direcionada.
Hoje, esse mesmo conteúdo é processado por fundos de hedge quantitativos com maior precisão e velocidade para descobrir sinais preditivos que podem ser utilizados para melhores decisões de negociação.
Notícias textuais geralmente são processadas com técnicas de processamento de linguagem natural (PLN), um campo da ciência da computação que existe há décadas.
Um exemplo de uma tarefa de PLN é a análise de sentimentos, em que cada notícia pode ser classificada por seu tom subjacente para decifrar o impacto potencial sobre o preço de uma ação.
Por exemplo, um artigo sobre rendimentos trimestrais melhores do que o esperado pode ser pontuado como positivo e levar a um estouro no preço das ações, enquanto um artigo sobre um rebaixamento por analistas pode ser classificado como negativo e resultar em uma correção.
Ponderando o contexto
Com a maior disponibilidade de toolkits e serviços PLN de código aberto, pode ser tentador construir o sistema conectando um algoritmo off-the-shelf com um feed de notícias ao vivo agregado.
No entanto, surgem problemas quando as máquinas tentam interpretar linguagem especializada. Uma palavra como "magnificent" normalmente seria declarada como positiva pela maioria dos algoritmos, mesmo que apareça no contexto de Magnificent Hotel Investments, de acordo com Ivailo Dimov, Pesquisador Quantitativo e Cientista de Dados da Bloomberg.
Sem treinamento especializado em conhecimento de domínio orientado a finanças, a maioria dos algoritmos de propósito geral de PLN não nota sutilezas, o que pode levar a pontuações de sentimento distorcidas e resultados fatais no desempenho de negociação. "Se você não consegue discernir se o texto se aplica a uma empresa ou situação comercial, isso pode resultar em dados ruidosos e errôneos", diz Dimov.
Além disso, as histórias também são marcadas com um conjunto avançado de tags de tópico para categorizar ainda mais características e temas de conteúdo, como tecnologia, mudanças de analistas ou downgrades . “Com as tags de tópico, podemos reunir informações mais relevantes sobre sentimento do que o próprio texto bruto”, diz Dimov.
Melhorando o código de grupo por meio da análise de componentes
Como a Bloomberg coleta e internaliza dados de várias fontes, desenvolveram ao longo do tempo uma solução robusta para gerar tags de tópico com maior precisão.
Na maioria dos casos, uma determinada notícia pode ter mais tags do que o necessário, na tentativa de capturar todas as informações relevantes, evitando possíveis erros. Entretanto, toda a taxonomia do tópico contém dezenas de milhares de tags exclusivas, com distribuição de cauda longa muito distorcida.
Isso apresenta desafios não triviais quando se tenta utilizar tags de tópico para melhorar ainda mais as estratégias orientadas pelo sentimento. A redução adequada da dimensão é necessária para associar tags de significados semelhantes, para que possam ser tratadas de forma holística como um grupo.
No entanto, técnicas tradicionais, como a Análise Semântica Latente, baseiam a análise apenas em co-ocorrências de termo, o que acaba sendo muito ruidoso devido à sua distribuição parcimoniosa e de grande dimensão. Como resultado, tende a agrupar tags de tópico, embora estas não exibam um relacionamento lógico claro.
Ivailo e seu colega Daniel Lam, Pesquisador Quantitativo Sênior da Bloomberg, desenvolveram juntos uma nova abordagem matemática chamada análise de componentes π para melhor compreender e agrupar os códigos de uma forma economicamente rentável e parcimoniosa.
Quando combinados com a análise de sentimentos, grupos de tags de tópicos identificados pela análise de componente π mostram sistematicamente um impacto mais forte do sentimento sobre os preços de certas ações – evidências de que fontes de notícias estruturadas desempenham um papel valioso na busca por alfa.
Acesse a série completa de white papers para saber mais sobre o impacto do sentimento nos preços das ações com códigos de tópicos.