Herramientas para la codificación, el análisis y la explotación de un corpus oral de aprendices francófonos de español

Autores/as

DOI:

https://doi.org/10.1344/teisel.v3.44741

Palabras clave:

lingüística de corpus, corpus de aprendices, codificación, análisis de datos, L2

Resumen

En este trabajo se analiza el uso de tres herramientas digitales para la codificación, el análisis y la explotación de un corpus oral de aprendices de L2. En primer lugar, se presenta la creación, codificación y actualización del corpus, que se compiló con el objetivo de analizar los errores cometidos en el plano oral por parte de un grupo compuesto por 51 informantes franceses, estudiantes de segundo año de Lenguas Extranjeras Aplicadas de la Universidad François Rabelais de Tours (Francia). Una vez conseguido el material auditivo, se procedió a la transcripción y anotación textual codificada, siguiendo la normativa que marca Text Encoding Initiative.

Esta investigación se valió de ciertas herramientas digitales, como XML Formatter (https://jsonformatter.org/xml-formatter), XML Validator (https://codebeautify.org/xmlvalidator), VS Studio (https://code.visualstudio.com/), Git (https://git-scm.com/), GitHub (https://github.com/), SpaCy (https://SpaCy.io/), CATMA (https://catma.de/) y Google Colaboratory (https://colab.google/), que contribuyeron al desarrollo del análisis y la explotación del corpus oral, sirviendo para la configuración y validación de la cabecera del corpus (XML Formatter - Validator), para el etiquetado del corpus (VS Studio), para el control y almacenaje de las versiones (Git-GitHub) y para la actualización del corpus (SpaCy permite nuevos análisis, Google Colaboratory es un instalador de software usado junto a SpaCy, y con CATMA se desarrolla el nuevo etiquetado).

Biografía del autor/a

Cristina Muñoz, Institute for American Universities - American College of the Mediterranean

Cristina Muñoz es licenciada en Filología Hispánica por la Universidad de Córdoba (2007) y doctora en Lengua Española y sus Literaturas por la Universidad Complutense de Madrid (2022). Desde 2008 ha ejercido funciones docentes y de coordinación en diferentes centros europeos y universidades norteamericanas. Sus principales intereses de investigación son la adquisición del lenguaje como primera y segunda lengua, el desarrollo de la interlengua y la lingüística de corpus.

 

Descargas

Publicado

2024-03-11

Número

Sección

Sección "Artículos sobre investigaciones en las que se emplean tecnologías"