Corpora: Spanish Corpus

From: Pascual Cantos (pcantos@fcu.um.es)
Date: Mon Oct 01 2001 - 12:07:39 MET DST

  • Next message: Ekaterini Pastra: "Corpora: Half-day workshop on Language Resources"

    This note might be interesting for people wanting to use Spanish Corpora

    --------------------------------------------------------------------------

    Nota de interés para quienes deseen disponer gratis de un corpus del
    español actual:

    La editorial SGEL, acaba de publicar un diccionario del español actual
    basado en el corpus CUMBRE (propiedad de esta misma editorial). Como
    incentivo para su promoción, SGEL regala y envía gratis un extracto de
    dicho corpus a quien adquiera dicho diccionario. El corpus objeto de regalo
    está indexado y se instala junto con el programa informático adecuado para
    la extracción de concordancias (palabras aisladas, grupos de palabras, con
    o sin comodín, etc.). Dicho programa añade también otras funciones útiles
    para el lingüista o para el estudioso en general (como por ejemplo la
    identificación geográfica de cada texto y la modalidad de lenguaje) y es de
    uso extremadamente sencillo, de modo que cualquier investigador o profesor
    se puede familiarizar con él en poco tiempo.

    El corpus Cumbre original consta de 20 millones de palabras extraídas del
    español oral y escrito de España e Hispanoamérica. Las muestras orales son
    de la década de los noventa, y las escritas se retrotraen, en lo que se
    refiere a libros y extractos literarios, hasta la década de los cincuenta.
    La recopilación se llevó a cabo entre 1990 y 1995; el proyecto fue
    financiado por la editorial SGEL s.a.
    El corpus objeto de obsequio consta de 2 millones de palabras, extraídas de
    muestras orales y escritas del corpus general, según el siguiente reparto:

    Fuentes (50% de España y 50% de Hispanoamérica)

    a) Textos extraídos de libros diversos
     (novelística en general, novela policíaca, novela histórica,
    novela biográfica, política, deportes, filosofía, cine, derecho,
    historia, ciencia, economía): 1.000.000

    b) Textos extraídos de la prensa (diarios y revistas,
    de las secciones siguientes: política, opinión, economía,
    sociedad, cultura, sucesos, deportes, televisión, entretenimiento,
    cine, justicia, editoriales, medicina/salud, cartas, religión,
    música, ciencia, tráfico, clima, educación, arte, ecología,
    necrológicas, arqueología, viajes): 600.000

    c) Textos orales (radio y televisión: conversación,
    debate y discusión en grupo): 400.000

                                  Total de palabras: 2.000.000

            
    La condición para recibir dicho corpus gratuitamente es adquirir una copia
    del Gran Diccionario de Uso del Español Actual, primer diccionario
    redactado sobre la base del mencionado corpus Cumbre, de 20 millones de
    palabras (cada ejemplar contiene una solapa que debe remitirse a SGEL para
    recibir el corpus). El diccionario en sí es una obra de 2.160 páginas, a
    tres columnas; contiene unas 72.000 voces, más de 150.000 acepciones y más
    de 100.000 ejemplos ilustrativos extraídos del corpus. El diccionario
    cuesta 9.500 ptas (57 Euros) y la adición del corpus no incrementa el
    precio. De modo que es una excelente oportunidad para obtener dos productos
    por uno. Si sirve de referencia, la obra es similar en volumen al
    recientemente publicado The New Oxford English Dictionary (Oxford 1998).
    Para información y pedidos, el interesado debe dirigirse a:

    pedidos.libros@sgel.es

    -----------------------------------------------------
    Dr. Pascual Cantos Gómez

    Departamento de Filología Inglesa
    Universidad de Murcia
    C/. Santo Cristo, 1
    30071 Murcia (Spain)

    Tel.: +34 968 364365
    Fax: +34 968 363185
    E-mail: pcantos@fcu.um.es
    http://www.um.es/lacell/miembros/pcg/



    This archive was generated by hypermail 2b29 : Mon Oct 01 2001 - 12:08:52 MET DST