O sentimento social é cada vez mais visto como uma fonte importante de alfa inexplorado — com conversas no Twitter fornecendo insights potenciais para movimentos futuros. Agora, é hora de sermos quantitativos.
O uso de machine learning e técnicas de inteligência artificial (AI, sigla em inglês) abriu novos caminhos para gestores de fundos quantitativos obterem valor a partir de fontes de dados tradicionais e não tradicionais em todo o mundo.
Investidores estão começando a obter insights valiosos a partir de conversas e interações que ocorrem nas notícias e no Twitter.
Isto está criando uma grande oportunidade à medida que todos estão tentando obter vantagem aos buscar informações relevantes que movem o mercado. Entretanto, para garantir esta oportunidade, investidores devem adotar algumas práticas quantitativas.
Identificar um sinal confiável não é tão simples quanto ler as notícias ou seguir as pessoas certas no Twitter. Requer a intuição humana para sustentar a estratégia, a infraestrutura para lidar com grandes volumes de dados e machine learning para modelar aqueles dados.
Limpeza e manuseio de dados de redes sociais
Descobertas recentes tornaram mais eficiente a transformação dos tipos de dados. Um método utilizado é o processamento de linguagem natural para extrair e destacar informações relevantes em textos desestruturados.
“Isto envolve definir palavras no contexto correto”, diz Arun Verma, Pesquisador Quantitativo Sênior e Diretor de Soluções de Pesquisa Quant da Bloomberg. “Palavras como Cook e Apple poderiam se referir a uma receita, mas juntas em uma frase, provavelmente se referem à empresa Apple (AAPL).”
Um método é a "desambiguação de entidades nomeadas", que determina itens em um fluxo do Twitter ou notícias relacionadas ao nome de uma empresa. É uma etapa necessária no processamento de texto para análise.
No entanto, antes de ajustar um modelo, uma pessoa deve codificar notícias no conjunto de teste — uma porção de dados codificados usada para treinar um modelo. Um algoritmo estuda as diferentes relações nesta amostra de dados antes de um classificador corretamente treinado testar as observações restantes. O uso de dados de treinamento codificados e de alta qualidade, melhora as chances do modelo encontrar um padrão que se repete.
Para marcar o texto com precisão, especialistas organizam um conjunto para teste e atribuem um score de sentimento para cada notícia no conjunto, a partir da perspectiva de um investidor de longo prazo na empresa. Eles focam apenas no texto em vez do resultado, portanto os scores não refletem qualquer movimento de preço subsequente. Uma vez que os modelos são desenvolvidos, mais testes podem ser usados para verificar a precisão da classificação manual.
Encontrando um sinal no ruído
A partir daqui, os dados codificados podem ser enviados para um modelo de machine learning, como uma SVM (Máquina de vetor de suporte) que determina se a notícia pertence a uma classe específica.
Um algoritmo de treinamento SVM classifica o texto em dois grupos com características diferentes. Para análises de sentimento, onde histórias são indicadas como positivas, negativas ou neutras, é necessária uma abordagem mais distinta. Verma diz que a Bloomberg aplica vários vetores de suporte e classificações relacionadas para converter uma sequência de múltiplas classes, como sentimento, em uma série de problemas de duas classes.
Cada SVM opera em um espaço de alta dimensão e segue a estrutura "bag-of-words", um grupo de palavras relacionadas a finanças e investimentos. Assim, o algoritmo pode descobrir um separador ideal entre cada classe:
• Positivo-neutro • Positivo-negativo • Negativo-neutro
“Os resultados dos três classificadores binários são enviados para um novo modelo de machine learning, como KNN (K-Nearest Neighbors), para classificar notícias sem um sentimento claro em uma das três classes”, diz Verma. KNN analisa e categoriza notícias em tempo real com base em artigos de dados de treinamento semelhantes ao da notícia em questão.
Para verificar como o modelo de machine learning está se desempenhando, o próximo passo seria construir uma "matriz de confusão", que mapeia classificações previstas em relação às classes reais.
As previsões corretas caem na diagonal e as erradas fora das diagonais. Isto não só valida ou desconsidera os algoritmos, mas também os especialistas que codificaram os dados iniciais, fornecendo um ponto de partida para melhorias.
Obviamente, a resolução de todos os problemas pode levar ao excesso de adequação. A maneira clássica de lidar com erros sem overfitting é dividir o conjunto de dados em três conjuntos:
• Treinamento • Teste • Validação
Quando as melhorias no conjunto de treinamento não coincidem com o conjunto de teste, é um sinal forte para interromper o ajuste fino do modelo.
“No final, queremos que a máquina ajude a melhorar o comportamento humano e vice-versa”, diz Gautam Mitra, fundador e CEO da OptiRisk Systems; Mitra falou em um webinar recente sobre dados sociais e de notícias.
Webinar: "Tweets are moving markets: How to harness Twitter as a source of News." Acesse aqui.
Desempenho de longo prazo a partir do sentimento
Quando o modelo e os dados estão em boa forma, eles podem ser combinados em uma ferramenta poderosa para prever a movimentação de preço. Naturalmente, informações positivas sobre uma empresa ou indústria podem significar maior atividade de compra, enquanto que informações negativas podem preceder um sell-off.
Durante um webinar recente, Verma demonstrou o benefício do sentimento de negociação com três diferentes estratégias de curto prazo:
• Comprada no 1/3 superior das ações e vendida no 1/3 inferior. • Comprada no 5% superior e vendida no 5% inferior. • Um portfólio proporcional de posições compradas e vendidas limitado pela média
Cada estratégia classifica as ações por sentimento diário antes da abertura do mercado e fecha as posições existentes no fechamento.