La extracción de fuentes de datos es un componente esencial de las estrategias comerciales modernas, y las etiquetas temáticas son clave, ya que las máquinas pueden extraer conjuntos de datos únicos para detectar señales que mueven el mercado.
El aumento de los algoritmos le está dando a Wall Street un cambio de imagen, ya que los traders e inversionistas buscan máquinas de gran potencia y conjuntos de datos únicos en busca de señales de movimiento del mercado.
Todo esto hace que el análisis sistemático de las noticias sea una idea atractiva. Las empresas adoptaron rápidamente el análisis de noticias y redes sociales como una herramienta basada en datos para la gestión de la marca y la publicidad dirigida.
Hoy en día, el mismo contenido se procesa mediante fondos de cobertura cuantitativos con mayor precisión y mayor velocidad para descubrir señales predictivas que se pueden usar para tomar mejores decisiones comerciales.
Las noticias textuales generalmente se procesan con técnicas de procesamiento de lenguaje natural (PNL), un campo de la informática que ha existido durante décadas.
Un ejemplo de una tarea de PNL es el análisis de percepciones, donde cada noticia se puede clasificar por su tono subyacente para descifrar el impacto potencial en el precio de una acción.
Por ejemplo, un artículo de noticias sobre las ganancias trimestrales mejores de lo esperado podría recibir una calificación positiva y dar lugar a un salto en el precio de las acciones, mientras que un artículo de noticias sobre una degradación del analista podría ser negativo y dar lugar a una corrección.
Contabilidad para el contexto
Con la mayor disponibilidad de kits de herramientas y servicios de PNL de fuente abierta, puede ser tentador construir el sistema conectando un algoritmo estándar con un suministro agregado de noticias en vivo.
Sin embargo, los problemas surgen cuando las máquinas intentan interpretar un lenguaje especializado. Una palabra como "magnífico" normalmente sería declarada como positiva por la mayoría de los algoritmos, incluso si aparece en el contexto de Magnificas Inversiones Hoteleras, según Ivailo Dimov, Investigador Cuantitativo y Científico de Datos en Bloomberg.
Sin capacitación especializada en el conocimiento del dominio orientado a las finanzas, la mayoría de los algoritmos de PNL de propósito general no toman en cuenta las sutilezas, lo que puede llevar a puntuaciones de percepciones sesgadas y a resultados fatales en la rentabilidad de las operaciones. "Si no se puede discernir si el texto se aplica a una empresa o a una situación empresarial, puede resultar en datos ruidosos y erróneos", indicó Dimov.
Además, las historias también se etiquetan con un rico conjunto de etiquetas temáticas para categorizar aún más las características y temas del contenido, tales como tecnología, cambios de analistas o degradaciones . "Con las etiquetas temáticas podemos recopilar más información relevante sobre la percepción que el texto en bruto en sí mismo", dice Dimov.
Mejora del código grupal a través del análisis de componentes
Dado que Bloomberg recopila e internaliza datos de una gran cantidad de fuentes, con el tiempo ha desarrollado una solución robusta para generar etiquetas temáticas con mayor precisión.
En la mayoría de los casos, una noticia dada puede tener más etiquetas de las necesarias en un intento de capturar toda la información relevante y evitar posibles errores. Mientras tanto, la taxonomía de todo el tema contiene decenas de miles de etiquetas únicas, con una distribución prolongada muy sesgada.
Esto presenta desafíos no triviales cuando se intenta utilizar etiquetas temáticas para mejorar aún más las estrategias basadas en las percepciones. Se necesita una reducción de dimensión adecuada para asociar etiquetas de significados similares para que puedan tratarse de manera integral como un grupo.
Sin embargo, las técnicas tradicionales, como el análisis semántico latente, basan el análisis únicamente en co-ocurrencias de términos, lo que resulta ser muy ruidoso debido a la alta distribución parsimoniosa de la dimensión. Como resultado, tiende a agrupar las etiquetas temáticas aunque no muestren una relación lógica clara.
Ivailo y su colega Daniel Lam, Investigador Cuantitativo Senior en Bloomberg, desarrollaron un enfoque matemático novedoso llamado análisis de componentes π- para comprender y agrupar mejor los códigos de una manera parsimoniosa de costo máximo.
Cuando se combinan con el análisis de las percepciones, los grupos de etiquetas temáticas identificados por el análisis de componentes π- muestran sistemáticamente un mayor impacto de la percepción en los precios de ciertas acciones, evidencia de que las fuentes de noticias estructuradas desempeñan un papel valioso en la búsqueda de alfa.
Acceda a la serie completa de artículos técnicos para obtener más información sobre el impacto de la percepción en los precios de las acciones con códigos temáticos.