Слайд 1
Conceptos e metodoloxía
Córpora, neoloxía e terminoloxía
Слайд 2Córpora, neoloxía e terminoloxía
Aspectos teóricos do uso de córpora en
terminoloxía
2. Os estudos terminolóxicos e neolóxicos baseados en córpora
3. Panorama dos córpora especializados de orientación terminolóxica
Слайд 3
1. Aspectos teóricos do uso de córpora en terminoloxía
Conceptos
básicos sobre corpora
Un corpus lingüístico escrito é un conxunto de textos almacenados en formato electrónico, agrupados por diferentes criterios para o estudo dunha lingua en xeral ou de determinados aspectos dela (o vocabulario especializado, por exemplo).
Normalmente están formados por grandes cantidades de textos (millóns de palabras), aos que os se accede a través de varios programas que procesan a información requirida para levar a cabo estudos de lexicografía e terminolóxía. Estas ferramentas de recuperación están orientadas ó estudo cuantitativo e cualitativo dos datos.
O traballo con corpus permite, por exemplo, avaliar a representatividade de formas codificadas nun estándar léxico, tendo en conta a súa frecuencia e distribución rexistrada.
Слайд 4
1. Aspectos teóricos do uso de córpora en terminoloxía
Grazas
ao estudo de corpus comezouse a cuestionar que a palabra sexa a unidade básica do significado.
Esta constatación tivo unha relevancia importante na renovación das teorías terminolóxicas xa que se consideraron os termos como unidades que adquirían o seu valor especializado nos textos, dependendo, entre outros factores, da súa situación no texto e na oración.
As gramáticas tradicionais tamén están a cambiar a súa orientación, xa que se considera que o estudo do léxico está intimamente relacionado cos patróns sintácticos e coa fraseoloxía.
Слайд 5
1. Aspectos teóricos do uso de córpora en terminoloxía
En
Galicia, o proxecto do Tesouro Informatizado da Lingua Galega (www.tilg.com) ten como obxectivo último a elaboración dun grande dicionario para a lingua galega.
As distintas orientacións no uso dos corpora levaron a que se fosen definidos como:
Corpus: A collection of pieces of language* that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. EAGLES (Expert Advisory Group on Language Engineering Standards) (1996a: 4)
[*textos producidos en situacións reais]
Слайд 6
1. Aspectos teóricos do uso de córpora en terminoloxía
Calidade
ou cantidade?
Para o caso dun corpus terminolóxico feito en Galicia, a orientación cara á cantidade parece a máis realista. Dada a “relativa” escaseza de textos en certos dominios, é necesario incluír o maior número de textos posibles (sempre que haxa un mínimo preestablecido de calidade) para poder formar un corpus que teña un certo valor para ser estudado. Canto máis grande sexa ese corpus maior posibilidade teremos de que ofreza información sobre un determinado espectro de fenómenos lingüísticos.
Слайд 7
1. Aspectos teóricos do uso de córpora en terminoloxía
Tipos
de corpus
Corpora bilingüe (ou multilingüe)
Corpus de referencia (Reference corpus)
Corpus monitor (Monitor corpus)
Corpus oral (Spoken corpus)
Corpus de fragmentos textuales (Sample corpus)*
Córpora especiais ou especializados
*Non ten moito sentido para o noso traballo.
Слайд 8
1. Aspectos teóricos do uso de córpora en terminoloxía
Tipos
de corpus
Corpora bilingüe (ou multilingüe): os corpora bilingües están sendo usados en proxectos de tradución automática ou en estudos contrastivos. Ex.: CLUVI (Corpus Lingüístico do SLI, UVigo) ou proxecto NERC (Network of European Reference Corpora)
Corpus de referencia (Reference corpus): constitúe unha mostra representativa das variedades máis importantes dunha lingua, das súas estruturas e vocabulario. Ex.: en galego, CORGA (a partir de 1975) ou TILGa (Tesouro Informatizado da Lingua Galega, con textos dende 1612); en inglés, British National Corpus (www.natcorp.ox.ac.uk); en español, CREA (http://corpus.rae.es/creanet.html).
Corpus monitor (Monitor corpus): sen utilidade práctica como corpus especializado (corpus cun tamaño constante, en que se van engadindo textos novos, a medida que se ían quitando os máis vellos, para así dar unha imaxe de actualización e non sobrepasar determinado tamaño).
Слайд 9
1. Aspectos teóricos do uso de córpora en terminoloxía
Tipos
de corpus (...)
Corpus oral (Spoken corpus): recolle unha serie de fragmentos de conversas espontáneas, representativas dunha(s) variedade(s) da lingua que se queira estudar, ou ben aquel que recolle textos escritos destinados a ser lidos.
Córpora especiais ou especializados: O termo corpus especial aplícase a un corpus pequeno deseñado cun fin específico. Este tipo de corpus é diferente ó subcorpus, xa que non posúe as características dun corpus xeral ou de referencia nin serven, en principio, para describir usos representativos da lingua xeral. Argumentado así poderiamos considerar un corpus especializado como un tipo de corpus especial xa que se utilizan para ser representativos dunha variedade lingüística específica ou dunha sublinguaxe determinada por un dominio de especialidade. Os corpora especializados posúen características semellantes canto á cantidade, calidade, simplicidade e documentación ós corpora de referencia.
Слайд 103. Panorama de córpora de utilidade para a terminoloxía
A seguir referirémonos a algúns corpora que teñen utilidade para a terminoloxía. Non aparecen unicamente os especializados, senón tamén outros que poden ser utilizados para a documentación de termos (os córpora de referencia especialmente).
[Non será unha lista exhaustiva.]
Слайд 113. Panorama de córpora de utilidade para a terminoloxía
Para a lingua galega
1)Corpus de referencia do galego actual. CORGA: http://corpus.cirp.es/corga
Case 32 millóns de palabras.
Ten como obxectivo formar unha colección de textos modernos, dende 1975 ata a actualidade.
Está ordenado por áreas temáticas: Economía e política; Cultura e Artes; Ciencias Sociais; Ciencias e tecnoloxía; Ficción e Outros.
Fontes: libros, xornais, revistas e textos orais. A variedade de textos utilizados pode servir para darnos información sobre a terminoloxía dos textos de especialidade que se utilicen e tamén para observar os termos en situación comunicativas non especializadas (especialmente nos xornais).
Слайд 123. Panorama de córpora de utilidade para a terminoloxía
Para a lingua galega
2) Corpus do galego moderno / Tesouro informatizado da lingua galega: http://ilg.usc.es/TILG/
Máis de 26 millóns de palabras.
Comezou a elaborarse en 1986, no Instituto da Lingua Galega (ILGa), baixo a dirección de Antón Santamarina.
Fontes: textos literarios, xornalísticos, científicos e técnicos e orais.
É útil para o traballo terminolóxico e neolóxico porque inclúe textos de especialidade e tamén de prensa (difusión da terminoloxía).
Ademais, por ter un carácter diacrónico (o primeiro texto recollido é de 1612) pode servir para a análise da terminoloxía ó longo do tempo (enfoque máis completo que unha sincronía estrita).
Слайд 133. Panorama de córpora de utilidade para a terminoloxía
Para a lingua galega
3) Corpus lingüístico da Universidade de Vigo: O Seminario de Lingüística Informática (SLI) da Universidade de Vigo comezou hai anos a elaborar unha serie de corpus escritos que teñen básicamente dúas orientacións:
a) Corpus paralelos: CLUVI
b) Corpus Técnico do Galego (CTG)
Слайд 143. Panorama de córpora de utilidade para a terminoloxía
Para a lingua galega
Corpus paralelos: CLUVI
http://sli.uvigo.es/CLUVI/
Dicionario a partir do corpus: http://sli.uvigo.es/dicionario/
Слайд 153. Panorama de córpora de utilidade para a terminoloxía
Para a lingua galega
b) Corpus Técnico do Galego (CTG): http://sli.uvigo.es/CTG/
O Corpus Técnico do Galego é o único corpus destas características que existe en Galicia.
Este repertorio de textos de distintos niveis de especialización conta con máis de 15 millóns de palabras
Áreas temáticas: Dereito, Ecoloxía, Economía, Informática, Medicina, Socioloxía.
Os textos pertencen a distintas tipoloxías: manuais, axudas, menús e mensaxes de programas; artigos xornalísticos; roldas, foros, grupos de novas; textos académicos e divulgativos. Isto permite analizar a terminoloxía en distintas situacións comunicativas.
Слайд 163. Panorama de córpora de utilidade para a terminoloxía
Para a lingua galega
b) Corpus Técnico do Galego (CTG):
A partir do CTG estase a elaborar unha base de datos de terminoloxía que se coñece como Termoteca (Banco de Datos Terminolóxico da Universidade de Vigo: TUVI): http://sli.uvigo.es/TUVI/
Nela pódense consultar fichas terminolóxicas, ordenadas conceptualmente, que inclúen información sobre o concepto (relacións semánticas e adscrición a campos conceptuais) e a denominación (variantes).
Única base terminolóxica baseada en corpus que existe para o galego.
Слайд 173. Panorama de córpora de utilidade para a terminoloxía
Para a lingua galega
c) Corpus Técnico Anotado do Galego (CTAG):
http://sli.uvigo.es/CTAG/
Слайд 183. Panorama de córpora de utilidade para a terminoloxía
Para a lingua galega
d) Neoteca - Banco de Datos de Neoloxismos da Universidade de Vigo: http://sli.uvigo.es/NEO/
Desde 1998 estase a elaborar unha base de datos de neoloxismos na Universidade de Vigo, que é o principal proxecto do Observatorio de Neoloxía (grupo Tecnoloxías Aplicadas á Lingua Galega, X. Gómez Guinovart).
O proxecto céntrase sobre todo no estudo da neoloxía xeral pero tamén se recollen neoloxismos terminolóxicos, seguindo o criterio de exclusión lexicográfica. Permítenos observar eses neoloxismos nos textos de prensa (que se almacenan para formar un corpus de segmentos de textos) e observar a súa presenza en contextos comunicativos non especializados ou semiespecializados.
Слайд 193. Panorama de córpora de utilidade para a terminoloxía
Para a lingua portuguesa
-Corpus de Referência do Português Contemporáneo (CRPC): http://www.clul.ul.pt/pt/investigacao/183-reference-corpus-of-contemporary-portuguese-crpc
Elaborado polo Centro de Lingüística da Universidade de Lisboa.
Reúne un total de 311 millóns de palabras de todas as variedades de portugués.
Grande cantidade de textos técnicos (cerca de 12 millóns de palabras de libros científicos e técnicos) que deben servir para a análise da terminoloxía portuguesa.
-Linguateca: http://www.linguateca.pt [A consulta non é tan fácil]
Reúne distintos corpus: CETENFolha (xornal Folha, Brasil), CETENPublico (máis de 180 millóns de palabras, xornal Público, Portugal), entre outros.
Acceso aos poucos corpus en portugués: http://www.linguateca.pt/ACDC/
Слайд 203. Panorama de córpora de utilidade para a terminoloxía
Para a lingua castelá
Para o español podemos consultar os datos de distintos córpora:
a) Corpus CREA (Corpus de Referencia del Español Actual): http://corpus.rae.es/creanet.html
O corpus CREA, con textos dende 1975, inclúe rexistros do ámbito científico técnico (Bioloxía, Veterinaria, Ecoloxía, Tecnoloxía, Física, industrias diversas, Metereoloxía, Matemáticas, Xeoloxía, Química, Informática, Astronomía, enerxía, electrónica, Zooloxía e Paleontoloxía, Estatística, enxeñerías, Bioquímica, Botánica).
Pola súa banda, o CORDE (Corpus Diacrónico del Español) conta con 410 millóns de rexistros.
O corpus paralelo do IULA (Institut Universitari de Lingüística Aplicada, UPF): https://www.iula.upf.edu/corpus/corpuses.htm [Interfaz de consulta: http://bwananet.iula.upf.edu/indexes.htm ]
Corpus Iberia: http://www.investigacion.cchs.csic.es/elci/node/8
Слайд 213. Panorama de córpora de utilidade para a terminoloxía
Para a lingua catalá
-Corpus Tècnic del IULA de la UPF (CT-IULA) http://bwananet.iula.upf.edu/
O proxecto de elaboración dun corpus técnico para o catalán lévao a cabo o grupo IULATERM da Universitat Pompeu Fabra de Barcelona.
Procuras en catalán, castelán e inglés.
Recolle textos escritos en cinco linguas (catalán, castelán, inglés, francés e alemán) nos dominios de especialidade do Dereito, a Economía, o Medio natural, a Medicina e a Informática.
Está destinado a servir para a extracción de neoloxismos e termos, extracción de datos para o ensino de segundas linguas, elaboración de dicionarios electrónicos e a elaboración de tesaurus.
Слайд 223. Panorama de córpora de utilidade para a terminoloxía
A web como corpus
A rede pode desempeñar un papel importante para o traballo en terminoloxía, xa que é unha fonte cada vez máis grande de textos electrónicos en diversas linguas e tamén en distintos dominios de especialidade.
Aínda que a web non se pode considerar como un corpus, xa que non está feito con ningún criterio específico, podemos entender que se pode constituír nunha boa fonte para o traballo en terminoloxía:
a) xa que se poden atopar textos nun determinado dominio especializado con diferentes graos de especialidade en distintas situacións comunicativas (especialista-especialista; especialista-aprendente, especialista-leigo, etc.);
b) a rede ten a virtude de estar continuamente adaptándose ás innovacións que se producen nos distintos dominios de especialidade e, así, moitos dos textos que alí aparecen recollen terminoloxía innovadora e
c) permite documentar terminoloxía sen ter que construír un corpus específico, aínda que isto pode presentar diversos problemas, especialmente derivados da calidade dos textos recuperados. Para evitar estes problemas, deberase facer unha ponderación previa da documentación.
Слайд 23Bibliografía xeral
Ahmad, K. Pragmatics of Specialist Terms: The
Acquisition and Representation of Terminology. En Steffens, P. (ed.). Machine Translation and the Lexicon. Proceedings of the 3rd. International EAMT Workshop, Berlin/NewYork: Springer Verlag, 1995, p. 51-76.
Ahmad, K. e Rogers, M. Corpus Linguistics and Terminology Extraction. En Wright, S. E. e Budin, G. (eds.). Handbook of Terminology Management. Vol.2, Amsterdam/Philadelphia: John Benjamins, 2001, p.725-760.
Alcaraz Varó, E. El inglés profesional y académico. Madrid: Alianza Editorial, 2000.
Atkins, B.T.S. Clear, J. e Ostler, N. Corpus Design Criteria. En Literary and Linguistic Computing, vol.7, n. 1, 1992, p.1-16.
Bach, C., Saurí, R., Vivaldi, J. e Cabré, M.T. El corpus del IULA: descripció. Serie Informes, 17, 1997.
Berber Sardinha, A. P. Lingüística de Corpus: histórico e problemática. En D.E.L.T.A. 16 (2), 2000, p. 323-367.
Bergenholt, H. e Tarp, S. Manual of Specialised Lexicography: the Preparation of Specialised Dictionaries. Amsterdam/Philadelphia: John Benjamins, 1995.
Biber, D. Conrad, S. & Reppen, R. Corpus Linguistics: Investigating Language Structure and Use. Cambridge: Cambridge University Press, 1998.
Bowker, L. Towards a Corpus-Based Approach to Terminography. En Terminology, 3(1), 1996, p. 27-52.
Bowker, L. e Pearson, J. Working with Specialized Language. A practical guide to using corpora. London/New York: Routledge, 2002.
Слайд 24Bibliografía xeral
Cabré, M.T. La terminología: representación y comunicación.
Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra, 1999.
EAGLES. EAGLES recommendations for the morphosyntactic annotation of corpora. Technical Report EAG-TCWG-MAC/R, ILC-CNR. Pisa.
Engwall, G. Not Chance, but Choice: Criteria in Corpus Creation. En Atkins, B.T.S. e Zampolli, A. (eds.). Computational Approaches to the Lexicon. Oxford: OUP, 1994, p. 49-82.
Faber, P. ONCOTERM: Sistema bilingüe de información y recursos oncológicos. En Alcina Caudet, A. e Gamero Pérez, S. (eds.). La traducción científico-técnica y la terminología en la sociedad de la información. Castellón de la Plana: Publicacions de la Universitat Jaume I, 2002, p. 177-188.
Fillmore, Ch. J. “Corpus linguistics” or “Computer-aided armchair linguistics”. En Svartvik, J. (ed.). Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. Berlin/New York: Mouton de Gruyter, 1992, p.35-60.
Ghadessy, M. Henry A. e Roseberry, R.L. (eds.). Small Corpus Studies and ELT. Theory and practice. Amsterdam/Philadelphia: John Benjamins, 2001.
Halliday, M. A. K. Some Grammatical Problems in Scientific English. En Halliday, M.A.K. y Martin, J.R. (eds.). Writing Science: Literary and Discursive Power, 1993, p.69-85.
Слайд 25Bibliografía xeral
Leech, G. The state of the art
in corpus linguistics. En Aijmer K. y Altenberg B. (eds.). English Corpus Linguistics: Studies in Honour of Jan Svartvik. London: Longman, 1991, p 8-29.
McEnery, T. y A. Wilson. Corpus Linguistics. Edinburgh: Edinburgh University Press, 1996.
Meyer, I. y Mackintosh, K. The Corpus from a Terminographer's Viewpoint. En International Journal of Corpus Linguistics, vol. 1(2), 1996, p. 257-285.
Pearson, J. Terms in Context. Amsterdam/Philadelphia: John Benjamins, 1998.
Qi-bo, Z. A quantitative look at the Guangzhou Petroleum English Corpus. En ICAME Journal, 13, 1989, p.28-38.
Roe, P. Scientific Discourse Analysis. Monographs No 4. ELR Birmingham University, 1977.
Sánchez, A., Sarmiento, R., Cantos, P. e Simón, J. Cumbre. Corpus lingüístico del español contemporáneo. Fundamentos, metodología y aplicaciones. Madrid: SGEL, 1995.
Sinclair, J. Preliminary recommendations on Corpus Typology. EAG-TCWG-CTYP/P. Pisa: EAGLES. Versión de mayo 1996.
Stubbs, M. Text and Corpus Analysis. Computer-assisted Studies of Language and Culture. Oxford/Cambridge (MA): Blackwell Publsihers, 1996.
Vargas, Ch. A pragmatic model of text classification for the compilation of special-purpose corpora. En Mateo, J. y Yus, F. (eds.). Thistles. A homage to Brian Hughes. Essays in Memorian, vol. 2, 2005, p. 295-315.