Inicio

Publicaciones






UNED


Bienvenidos al proyecto ‘GLISSANDO, un corpus de habla anotado para estudios prosódicos en catalán y español’

Versió en català

Descripción del proyecto

El corpus Glissando ha sido desarrollado en el marco de los proyectos coordinados 'Glissando, un corpus de habla anotado para estudios prosódicos en catalán y español' y 'Modelización de los fenómenos prosódicos del español y catalán a partir del corpus GLISSANDO'. En estos proyectos, financiados por el Plan Nacional de I+D del Gobierno español, han participado investigadores de tres universidades:

  • Universitat Pompeu Fabra
  • Universidad Autónoma de Barcelona
  • Universidad de Valladolid

El objetivo principal de estos proyectos es el diseño y grabación de un corpus de habla para estudios prosódicos en estas dos lenguas. El corpus (que se compone de dos partes, una de lectura de noticias, considerada representativa de un estilo de habla más neutra o formal, y otra de diálogos, formales e informales) ha sido grabado y transcrito ortográficamente en su totalidad, y la anotación contiene información fonética y fonológica que puede ser relevante para los estudios prosódicos:

  • transcripción fonética alineada con la señal de voz;
  • segmentación en unidades prosódicas (sílabas, grupos entonativos, etc.);
  • curva de F0 (obtenida mediante algoritmo de estimación de F0, y en algunos casos, también mediante laringógrafo);
  • curva estilizada y anotación fonética en términos de picos y valles;
  • representación fonológica tonal (ToBI).

El corpus ha sido diseñado para que sirva de material de análisis en estudios relacionados con la prosodia desde diferentes perspectivas e intereses, tanto teóricas (descripción fonética y fonológica de los fenómenos suprasegmentales en español y catalán, análisis prosódico del habla de informativos, entre otros) como aplicadas (tecnologías del habla, por ejemplo):

  • su tamaño permite realizar estudios estadísticos con garantías, y lo hace también apto para determinadas aplicaciones tecnológicas;
  • su grado de calidad de acústica asegura un buen funcionamiento de las herramientas de análisis existentes (algoritmos de segmentación fonética automática, o de estimación de la frecuencia fundamental, por ejemplo);
  • al contener datos de varios locutores, permite la realización de estudios interlocutor;
  • la anotación de los datos tanto a nivel fonético como fonológico amplía las posibilidades de análisis, y ofrece la posibilidad de estudios comparativos entre modelos y niveles;
  • la anotación del corpus recogido en términos de unidades prosódicas permite, además del análisis de la prosodia en diferentes niveles, abordar el estudio de su naturaleza fonológica, el de su identificación fonética y el de los factores lingüísticos que determinan la organización de los enunciados en unidades prosódicas;
  • permite los estudios prosódicos en diferentes estilos de habla (noticias y diálogos con diferentes grados de formalidad), e incluso poder realizar estudios comparativos;
  • al contener datos comparables en más de una lengua, permite también estudios interlingüísticos o para aplicaciones tecnológicas multilingües.

 

Los principales intereses de investigación del grupo de la Universidad Autónoma de Barcelona en colaboración con el grupo de la Universidad de Valladolid son:

  • Comprobación de hipótesis del modelo de fonología entonativa, dentro del marco métrico-autosegmental. La investigación en prosodia de las lenguas romances se ha configurado como una línea de investigación sólida en el ámbito de la fonología de laboratorio. Se persigue la descripción completa y coherente de la fonología entonativa de cada lengua, con el fin de conocer mejor los complejos mecanismos prosódicos que intervienen en la producción del habla, y el interés por aplicar el modelo métrico-autosegmental a las lenguas romances y por desarrollar un sistema de anotación prosódica ha ido aumentando en los últimos años. El corpus GLISSANDO permite avanzar en el estudio de la entonación del español desde esta perspectiva, aprovechando la segmentación en unidades prosódicas del corpus y la anotación ToBI.
  • Anotado prosódico con etiquetas ToBI : aportación de nuevos datos empíricos al sistema Sp_ToBI. El objetivo es avanzar en el conocimiento de la prosodia del español a partir de los materiales anotados del subcorpus de noticias de Glissando y debatir las distintas posibilidades de anotación, con el fin de avanzar en la definición de un modelo Sp_ToBI y explorar nuevas cuestiones teóricas aún sin resolver en un análisis de la entonación del español desde el modelo AM.
  • Propuesta de herramienta de anotación semiautomática. Se dispone de una herramienta de anotación semiautomática basada en la lógica difusa (con el concepto clave de “incertidumbre”), que permite agilizar el proceso de etiquetado sin ignorar el conocimiento fonológico del etiquetador.