Extraer valor de los datos de las redes sociales y noticias

La percepción social se ve cada vez más como una fuente importante de alfa sin explotar, ya que las conversaciones en Twitter proporcionan información potencial sobre futuros movimientos. Ahora es el momento de ser cuantitativos.

El uso de técnicas de aprendizaje automático e inteligencia artificial ha abierto nuevas posibilidades para que los administradores de fondos cuantitativos obtengan valor de las fuentes de datos tradicionales y no tradicionales en todo el mundo.Los inversionistas están comenzando a obtener poderosos conocimientos de las conversaciones e interacciones que se realizan en las noticias y en Twitter.

Los inversionistas están descubriendo que los datos de percepciones son una fuente importante de alfa sin explotar, a diferencia de los datos financieros tradicionales o las estrategias disponibles anteriormente.

Esto ha creado una gran oportunidad a medida que todos buscan una ventaja para obtener información relevante sobre otros participantes en el mercado; sin embargo, para aprovecharla, los inversionistas deben adoptar algunas prácticas cuantitativas.Identificar una señal confiable no es tan simple como leer las noticias o seguir a la gente adecuada en Twitter. Se requiere intuición humana para sustentar la estrategia, infraestructura para manejar grandes volúmenes de datos y aprendizaje automático para modelar esos datos.

Limpieza y manejo de datos de las redes sociales

Los recientes avances en tecnología han facilitado la transformación de muchas variedades de datos. Un método consiste en emplear el procesamiento de lenguajes naturales para extraer y etiquetar información relevante escondida dentro de la riqueza de textos no estructurados."Esto implica definir palabras en el contexto correcto", indicó Arun Verma, Investigador Cuantitativo Senior y Jefe de Soluciones de Investigación Cuantológica en Bloomberg."Las palabras en inglés 'Cook' (cocinar) y 'Apple' (manzana) por sí mismas podrían referirse a una receta, pero juntas en una cadena de texto, probablemente se refieren a la empresa Apple (AAPL)".Un método es la "desambiguación de la entidad nombrada", que determina los elementos en un flujo de Twitter o un artículo de noticias que se vincula a un nombre de empresa. Es un paso necesario en el procesamiento del texto para su análisis.Antes de configurar un modelo, un ser humano debe etiquetar noticias en el conjunto de entrenamiento, una parte de los datos etiquetados utilizados para enseñarle al modelo. Un algoritmo estudia las diferentes relaciones en esta muestra de datos antes de que un clasificador plenamente entrenado ponga a prueba las observaciones restantes. El uso de datos de entrenamiento etiquetados de alta calidad mejora las posibilidades de que el modelo encuentre un patrón que se repita.Para etiquetar el texto con precisión, un conjunto de entrenamiento está curado por expertos humanos que asignan una puntuación de percepción a cada historia en el conjunto desde la perspectiva de un inversionista a largo plazo en la empresa. Se centran únicamente en el texto en lugar de en el resultado, por lo tanto, las puntuaciones no reflejan ningún movimiento de precios posterior. Una vez que los modelos están en desarrollo, se pueden utilizar pruebas adicionales para verificar la precisión de la clasificación manual.

Encontrar una señal en el ruido

Desde aquí, los datos etiquetados pueden ser alimentados a un modelo de aprendizaje automático como una máquina de vectores de soporte (SVM, por su sigla en inglés) que determina si la noticia pertenece a una clase específica.Un algoritmo SVM clasifica el texto en dos grupos con diferentes características. Al trabajar con percepciones, donde a las noticias se les asigna una calificación de positivo, negativo o neutral, se requiere un enfoque más sutil. Verma observa que Bloomberg aplica múltiples vectores de soporte y clasificación de dos niveles para convertir una secuencia de múltiples clases, como la percepción, en una serie de problemas de dos clases.Cada SVM opera en un alto espacio dimensional y sigue el modelo de "bolsas de palabras", un catálogo de palabras relacionadas con finanzas e inversiones. De esa manera, el algoritmo de entrenamiento puede descubrir un separador óptimo entre cada clase:• Positivo-neutral
• Positivo-negativo
• Negativo-neutral"Los resultados de los tres clasificadores binarios se alimentan a un nuevo modelo de aprendizaje automático como K-Nearest Neighbors (KNN) para clasificar noticias sin una percepción clara en una de las tres clases", dice Verma. KNN analiza y clasifica noticias en tiempo real basándose en los casos provenientes de los datos de entrenamiento que están relacionados a la noticia objetivo.Para comprobar si el modelo de aprendizaje automático está funcionando bien, el siguiente paso sería construir una matriz de confusión que haga un mapa de clasificaciones previstas frente a las clases reales.Las predicciones correctas caen en la diagonal, mientras que las clasificaciones erradas se sitúan en las entradas fuera de la diagonal. No solo valida o desacredita los algoritmos, sino que también a los expertos humanos que etiquetaron los datos iniciales, lo que proporciona un punto de partida para realizar mejoras.Por supuesto que arreglar cada problema puede derivar en un exceso de adecuación. La forma clásica para manejar errores sin el exceso de adecuación es dividir los conjuntos de datos en tres grupos:• Entrenamiento
• Prueba
• ValidaciónCuando las mejoras en el conjunto de entrenamiento no coinciden con el conjunto de pruebas, es una firme señal de que hay que dejar de seguir ajustando el modelo."Al final, queremos que la máquina ayude a mejorar el comportamiento humano y viceversa", dice Gautam Mitra, fundador y CEO de OptiRisk Systems; Mitra presentó en un webinar reciente sobre datos de las redes sociales y noticias.

¿Cuál es su opinión acerca del valor de agregar sistemáticamente información relacionada con noticias a su flujo de trabajo?

Es extremadamente interesante, dado el último auge de big data y las tecnologías de aprendizaje automático.
Vale la pena explorarlo si tengo el tiempo y los recursos.
Dudo el valor, dado que el espacio de noticias contiene demasiado ruido.
No me interesa en lo absoluto

Rendimiento a largo plazo derivado de la percepción

Cuando el modelo y los datos son buenos, pueden combinarse para ser una poderosa herramienta para predecir el movimiento de los precios. Naturalmente, la información positiva sobre una empresa o industria podría traducirse en una mayor actividad de compra, mientras que la prensa negativa podría preceder una venta generalizada.

Webinar:
"Los tweets son mercados en movimiento: Cómo aprovechar Twitter como fuente de noticias".
Acceda al sitio aquí.

Durante un reciente webinar, Verma demostró el beneficio de la percepción de negociaciones con tres diferentes estrategias que apuestan a alzas y bajas:

Tomar posiciones largas sobre 1/3 de las acciones en la parte superior y posiciones cortas sobre 1/3 de las acciones en la parte inferior

Tomar posiciones largas sobre el 5% en la parte superior y cortas sobre el 5% en la parte inferior

Una cartera proporcional de posiciones largas y cortas, limitada por la media.

Cada estrategia clasifica las acciones según la percepción diaria antes de la apertura del mercado y cierra las posiciones existentes al cierre.

Los resultados muestran una fuerte sinergia entre las noticias y los datos de Twitter que superan el desempeño de cualquier factor individual durante un período de 1 año.