No tiene artículos en su carrito de compras.

Total: MXN$0
Libros UNAM

Introducción a los Corpus Lingüísticos

Introducción a los Corpus Lingüísticos

 

ISBN: 9786070298981

Autor(es): Sierra Martínez, Gerardo E.

Editor/Coeditor/Dependencia Participante: Instituto de Ingeniería

Formato: Libro Impreso

Disponibilidad: En existencias

MXN$400
ISBN/ISSN 9786070298981
Entidad Académica Instituto de Ingeniería
Edición o Número de Reimpresión 1a edición, año de edición -2017-
Tema Ingeniería
Número de páginas 214
Tamaño 23 x 16.5 x 1.2
Terminado o acabado rústico
Idioma Español
Contenido Prólogo
Agradecimientos

I Introducción a corpus
1 El concepto de corpus lingüístico
2 Descripción de corpus existentes
3 Clasificación de corpus
4 Internet como corpus

II Compilación de corpus
5 Compilación de corpus textuales
6 Compilación de corpus orales

III Anotación de corpus
7 Bases para la anotación de corpus
8 XML
9 Tipos de anotación

IV Herramientas y técnicas de análisis
10 Técnicas de análisis
11 Herramientas de análisis textual

V Aplicaciones
12 Aplicaciones en lingüística
13 Aplicaciones en lingüística aplicada
14 Aplicaciones en TL

Bibliografía

Detalles

El libro brinda un panorama general sobre técnicas de compilación y el procesamiento de datos para la creación de corpus lingüísticos.
Los temas que se presentan en esta obra, dividida en cinco partes, son de gran interés para todos aquellos que están incursionando en el estudio del lenguaje natural, tales como: el concepto de lingüística de corpus y viaje a través de los principales corpus que existen en español; descripción de los diversos criterios de compilación y clasificación, la importancia del Internet como herramienta para la compilación de datos; bases para el registro etiquetado de corpus según los objetivos; selección de herramientas y técnicas útiles para el análisis textual; importancia y aplicaciones de éstos en el campo de la lingüística aplicada a las tecnologías del lenguaje, etc.

Sierra Martínez, Gerardo E.

Director del Grupo de Ingeniería Lingüística (GIL), del IIUNAM, es pionero del área de ingeniería lingüística en México; se ha especializado en la extracción y recuperación de información, minería de textos y terminótica, entre otros.
Su ardua labor docente y de investigación le ha facultado para trabajar en grupo y de manera interdisciplinaria con estudiantes tanto de ingeniería como de lingüística en sus diversas áreas. Su enfoque sistémico le ha permitido enriquecer el estudio de la lingüística en México, al fomentar la línea de investigación de Lingüística de Corpus en la Facultad de Filosofía y Letras de la UNAM, así como la apertura del módulo de Tecnologías del Lenguaje dentro de la Licenciatura de Ingeniería en Computación de la misma universidad. Durante sus 18 años de carrera profesional ha desarrollado y coordinado múltiples proyectos que han tenido como resultado no sólo la creación de recursos, sino la resolución de problemas en el sector público y privado.

Como lingüistas y como ingenieros nos enfrentamos a situaciones en las que estas áreas se mezclan: requerimos de bases lingüísticas para efectuar algunos desarrollos informáticos, tales como traductores y resumidores automáticos, sistemas de búsqueda para la web o clasificadores de información; o bien, necesitamos automatizar procesos para crear diccionarios, realizar investigaciones filológicas, hacer búsquedas y listas de palabras, entre muchas otras. Un caso concreto: se necesita un diccionario del vocabulario científico básico del español de México. ¿Cómo sabemos de dónde extraer los términos?, ¿cómo validar tales palabras?, ¿de qué modo se pueden definir?, ¿qué herramientas tenemos a nuestra disposición para facilitarnos la tarea?, ¿qué métodos podemos seguir para efectuar esta labor? Cuestiones como éstas se tratarán a lo largo de este libro. Los objetivos fundamentales son proporcionar el concepto de corpus, dar una guía de las técnicas que pueden emplearse para operar un conjunto de datos textuales u orales y revisar con ejemplos existentes los resultados que se pueden obtener. El presente libro se basa en el curso sobre procesamiento de corpus textuales y orales, impartido durante varios semestres en la Universidad Nacional Autónoma de México (UNAM), tanto a nivel licenciatura, en la Facultad de Ingeniería y en la Facultad de Filosofía y Letras, como a nivel de posgrado en los programas de Lingüística y de Ciencia e Ingeniería de la Computación. Asimismo, el libro reúne la experiencia adquirida a lo largo del desarrollo de los proyectos de investigación básica y aplicada en el Grupo de Ingeniería Lingüística (GIL) del Instituto de Ingeniería, UNAM. Este curso, al igual que otros impartidos en estas licenciaturas y posgrados, se ubica en el área de tecnologías del lenguaje, también conocida como procesamiento del lenguaje natural, lingüística computacional o ingeniería lingüística. Por tanto, el ámbito que abarca el libro mezcla dos áreas de conocimiento, la lingüística y la computación. Gracias a la sinergia de ambas es posible contar con desarrollos complejos que facilitan la labor filológica relegando el uso de fichas al pasado. Si bien, la tradición ha sentado bases sólidas para los estudios lingüísticos, existen actualmente diversos métodos y herramientas que posibilitan procesar la información de manera más precisa y que economizan recursos para llegar a resultados mejor cuidados y mucho más rápido. El libro se organiza en cinco apartados para su mejor comprensión. El primero proporciona los elementos necesarios para entender cabalmente el concepto de corpus lingüístico, desde su definición, la descripción de sus características, su tipología y la descripción de los principales corpus existentes en español, a la vez que se describe cómo puede ser utilizado Internet para formar corpus. Una vez clarificado el concepto de corpus, en el segundo apartado se presenta el proceso necesario para poder compilar un corpus, ya sea textual u oral, desde el diseño del mismo, la obtención de los datos y su registro. Una vez recopilado, en el tercer apartado se describen los elementos básicos de anotación de corpus para distintos fines, destacando el lenguaje de etiquetado XML que es el principal usado hoy en día. Así, una vez tomando en cuenta los aspectos necesarios para la construcción de un corpus, en el apartado cuatro se señalan las técnicas esenciales y algunas herramientas disponibles para analizar corpus. Finalmente, con el fin de ejemplificar la utilidad de los corpus, se mencionan en el apartado cinco diversas aplicaciones tanto para la lingüística y la lingüística aplicada, como para las tecnologías del lenguaje, todas ellas realizadas en el seno del GIL. Cabe mencionar que si bien la lectura del libro puede ser secuencial de principio a fin, en el seguimiento de un curso conviene tener un panorama general, pero combinar la información vertida en diferentes capítulos. Por ejemplo, empezar con una aplicación concreta, revisar el corpus utilizado, las herramientas o técnicas seguidas, y con ello mencionar la teoría descrita en los tres primeros apartados. Con el fin de facilitar la lectura, se dejó al final de cada capítulo la bibliografía recomendada para ampliar la información.

Introducción a los Corpus Lingüísticos

MXN

MXN$400

0