Un nuevo artículo de investigación utiliza divulgaciones textuales etiquetadas con XBRL para entrenar un modelo de lenguaje grande para clasificar temas contables, con beneficios adicionales obtenidos del uso de datos etiquetados con XBRL sobre datos no estructurados.
En la era de la inteligencia artificial (IA), existe un interés creciente en el uso de modelos de IA como ChatGPT para mejorar los procesos de presentación de informes financieros. Sin embargo, es fundamental reconocer la importancia de los datos estructurados y legibles por máquinas para entrenar modelos de IA de forma eficaz.Un nuevo artículo de investigación utiliza divulgaciones textuales etiquetadas con XBRL para entrenar un modelo de lenguaje grande para clasificar temas contables, con beneficios adicionales obtenidos del uso de datos etiquetados con XBRL sobre datos no estructurados.
Los investigadores, Jenna Burke (Universidad de Colorado Denver), Rani Hoitash (Universidad Bentley), Udi Hoitash y Summer Xiao (Universidad Northeastern) aprovechan el requisito en los EE. UU. de etiquetar cada nota de los estados financieros con una etiqueta estandarizada, mapeándola a un concepto contable específico en las Normas de Contabilidad FASB. El etiquetado XBRL proporcionó a los autores un amplio conjunto de datos estructurados (más de 350.000 etiquetas XBRL) para entrenar el modelo de lenguaje grande con mayor precisión y sin la necesidad de intentar entrenar su sistema con humanos no expertos.
El documento se centra en las etiquetas de taxonomía más frecuentes de las notas de los estados financieros, que captura el 92,5 por ciento de las etiquetas utilizadas en las presentaciones anuales 10-K. Por ejemplo, la etiqueta TextBlock más frecuente es "IncomeTaxDisclosureTextBlock", que utilizan casi todas las empresas.
Los autores eligieron un modelo de lenguaje grande entrenado en una gran cantidad de datos financieros específicos. Utilizando los datos etiquetados XBRL, los autores "enseñaron" al modelo a clasificar texto en temas contables. Después de enseñar el modelo, los autores examinaron su desempeño en datos fuera de muestra nunca vistos. El modelo clasificó con precisión el texto en temas el 95% del tiempo. A continuación, los investigadores pusieron a trabajar el modelo clasificando el área problemática de los párrafos sin etiquetar, por ejemplo, en discusiones y análisis de gestión, con cierto éxito.
El estudio demuestra cómo los datos etiquetados pueden ser fundamentales para entrenar modelos de lenguaje grandes, superando la necesidad (y los riesgos de precisión) de la codificación manual por parte de humanos. La combinación de datos estructurados y legibles por máquinas con IA puede mitigar los riesgos asociados, permitiendo una capacitación precisa, coherencia e interpretabilidad.
Este tipo de investigación parecería sugerir que la Inteligencia Aumentada de próxima generación debería poder aumentar la precisión del etiquetado. Sin embargo, la dirección debe tener la última palabra en relación con lo que se publica para los inversores. Las taxonomías XBRL oficiales bien pensadas y de alta calidad seguirán creciendo en valor y relevancia.
Fuente: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4484489