Algunas cifras del español

 

COLABORADOR INVITADO: ALFONSO MEDINA URREA*

 


 

Las lenguas del mundo pueden conocerse de muchas maneras. Una de ellas es con números. Podemos, por ejemplo, contar a los hablantes de una lengua en una región o las lenguas que se hablan en un lugar (o al menos intentarlo, porque contar lenguas es como contar nubes).1 Éste es un ejercicio interesante para México, puesto que es un verdadero continente lingüístico: por un lado, es el país con más hablantes nativos de español en el mundo; por otro, dentro de sus fronteras viven hablantes de 11 familias lingüísticas indoamericanas que comprenden 68 agrupaciones de lenguas y más de 364 variantes lingüísticas.

    • Número de hablantes de español en el mundo: 498 939 291
    • Lengua del mundo con más hablantes nativos: chino mandarín
    • Segunda lengua del mundo con más hablantes nativos: español
    • Número de hablantes de español en España: 46 158 388 (9.25%)
    • Número de hablantes de español en América: 444 757 617 (89.14%)
    • Número de hablantes de español en México: 123 702 933 (24.79%)

 

Una fuente valiosa de información para obtener datos cuantitativos de las lenguas son los corpus, colecciones de textos más o menos representativos de una lengua, un dialecto, un tema o un registro lingüístico. El español cuenta con varios corpus de carácter sincrónico y diacrónico.

Los sincrónicos documentan el estado de una lengua en una época determinada. Los más conocidos son los de la Real Academia Española (Corpus del Español del Siglo xxi, o corpes xxi, y Corpus de Referencia del Español Actual, crea) y el de El Colegio de México (Corpus del Español Mexicano Contemporáneo, cemc), que se compiló en los años setenta para determinar la nomenclatura base del Diccionario del español de México (dem).

También destacan los corpus sociolingüísticos, como el Corpus sociolingüístico de la Ciudad de México (cscm) de El Colegio de México. Las investigaciones sociolingüísticas suelen relacionar los fenómenos de variación con la sociedad. Documentan, en particular, el contexto sociocultural de los hablantes: su clase social, su educación, su edad, su sexo o su etnicidad. Los datos cuantitativos de esos contextos ofrecen información sobre el uso del lenguaje en todos sus niveles. En español, los más conocidos son aquéllos compilados alrededor del Proyecto para el Estudio Sociolingüístico del español de España y América (preseea), que tiene 45 equipos que recogen datos de varias ciudades del mundo hispano, ocho de las cuales son urbes mexicanas, como la Ciudad de México (cscm).

Por otra parte, los corpus históricos documentan más de un estado de una lengua, cada uno correspondiente a una determinada época. Son corpus de este tipo en línea: Corpus Diacrónico del español, corde (rae), Corpus Diacrónico y Diatópico del español de América o cordiam (Academia Mexicana de la Lengua), Corpus Histórico del español de México (Instituto de Ingeniería, gil-unam) y corpusdelespanol.org de Mark Davis (Universidad de Brigham Young).

 


 

    • Número de muestras textuales2 en el Corpus del español mexicano contemporáneo (cemc): 996
    • Número de palabras gráficas3 en el cemc: 1 891 045
    • Número de documentos en el Corpus del español del siglo xxi (corpes): 290 668
    • Número de palabras gráficas en el corpes: 323 239 281
    • Número de palabras de documentos de España en el corpes: 103 600 595 (32.05%)
    • Número de palabras de documentos de México en el corpes: 37 190 455 (11.05%)

 

La colección de documentos de la lengua española del corpes es enorme, pero eso no la hace necesariamente representativa de la lengua. También el equilibrio de lo representado tendría que tomarse en cuenta. Por eso sorprende que México, con 24.79% de los hablantes nativos de español del mundo, cuente apenas con 11.51% de las palabras gráficas de ese corpus. En cambio, España, con 9.25% de los hablantes, está representada con 32.05% del corpes. Sobra decir que esta falta de equilibrio repercute en la representatividad de las tendencias cuantitativas que se observan en los corpus.

 


 

Como sea, los corpus pueden ayudarnos a observar algunas diferencias entre las variedades del español del mundo. Por ejemplo, el españolismo competición, calco del inglés competition, empezó a usarse a mediados del siglo xx, según puede verse en el corde y en el corpusdelespanol.org, y compite con el vocablo competencia en ciertos contextos.

El término competencia tiene varias acepciones. Algunas corresponden a la habilidad o capacidad para hacer algo (la competencia de una oficina). Otras tienen que ver con el acto de competir (competencia de atletas, competencia de perros de exposición, competencia de canto). Últimamente, en los medios de comunicación mexicanos se escucha competición para referirse al acto de competir.

    • Porcentaje de ocurrencias del vocablo competición (veces que aparece en el corpes) en textos de España: 68%
    • Porcentaje de ocurrencias de competición en textos de la región de México y el Caribe: 7.97%
    • Porcentaje de ocurrencias en textos de México: 2.82%
    • En cambio, porcentaje de ocurrencias del vocablo competencia (con todas sus acepciones) en España: 30%
    • Porcentaje de ocurrencias de competencia en la región de México y el Caribe: 20.36%
    • Porcentaje de ocurrencias en México: 12.27%
    • Porcentaje de ocurrencias en textos del género noticias: 22%
    • En México se usa competición predominantemente en las noticias deportivas

 


 

Otro vocablo con distribución desigual en América y España es coste, que suele usarse en lugar del sustantivo costo. Como se puede ver en los corpus corde y cordiam, no es propiamente un neologismo, puesto que cuenta con algunas ocurrencias desde hace siglos, sobre todo en España.

    • Porcentaje de ocurrencias de coste en España: 91.28% (versus costo:23%)
    • Porcentaje de ocurrencias de coste en México y el Caribe: 2.68% (versus costo:55%)
    • Porcentaje de ocurrencias de coste en México: 1.51% (versus costo: 15%)
    • Porcentaje de ocurrencias de coste en el resto del mundo: 6.04% (versus costo:22%)
    • Porcentaje de preferencia de coste versus costo en España: 89.29%
    • Porcentaje de preferencia de coste versus costo en México: 2.79%
    • Es muy común en México encontrar coste en trabajos escolares copiados de páginas de internet españolas

 


 

Un último ejemplo en este tenor: el diminutivo de mano tiene formas diferentes en el mundo hispano. Sorprende que haya lugares donde se dice manitos de puerco o te agarré con las manitos en la masa. Por otra parte, para los mexicanos, manito es aféresis de hermanito, forma que usamos a menudo como vocativo (oye, manito).

    • Porcentaje de ocurrencias de manita en México: 22.38%
    • Porcentaje de ocurrencias de manita en México y Centroamérica: 31.28%
    • Porcentaje de ocurrencias de manita en España: 39.31%
    • Porcentaje de ocurrencias de manita en Río de la Plata: 6.74%
    • Porcentaje de ocurrencias de manita en Chile: 1.43%
    • En Río de la Plata y en Chile prefirieron la forma manito para el diminutivo de mano
    • Porcentaje de ocurrencias de manito en México: 16.77%, siempre con el significado de hermanito
    • Porcentaje de preferencia de manito sobre manita en España: 3.18%, siempre en textos con personajes mexicanos

 


 

Otro tema interesante, que puede observarse en los corpus electrónicos, es la concordancia de referentes singulares (el motivo, la causa, etc.) con los pronombres clíticos plurales en acusativo (los, las), cuando aparecen con el dativo (se) en frases verbales como: se los digo, se los dices, se los dice, se los decimos, se los dicen, se los dije, etc. Son expresiones donde la pluralidad del dativo, representado por el morfema invariable se, se marca en el clítico de acusativo como si el dativo se tragara al acusativo. Por eso se les ha llamado dativos caníbales.4

    • Porcentaje de apariciones del verbo decir en presente, pretérito o futuro precedidas de los pronombres se y los (se los digo, se los dices, se los dice, se los decimos, se los dicen, se los dije, etc.) que ocurren en España: 1.52%
    • Porcentaje de apariciones que ocurren fuera de España: 98.48%
    • Porcentaje que ocurren en la región de México y el Caribe: 42.42%
    • Porcentaje que ocurren en el resto del mundo de habla hispana: 56.06%

 

Sin duda, los referentes de los pronombres acusativos de muchas de estas apariciones son plurales (se los dije, los motivos), pero es significativo que en España sólo ocurra el 1.52% de ellas (y eso que España está sobrerrepresentada en el corpes). Un número considerable de estas expresiones en el resto del mundo de habla hispana tiene también referentes plurales. Sin embargo, la mayoría seguramente son ejemplos de canibalismo entre pronombres.

 


 

Al ser el español una lengua con tantos hablantes y tan esparcida por el mundo, no sorprende que exhiba menor o mayor variación en todos los niveles del lenguaje. El nivel léxico, por ejemplo, tiene una riqueza enorme. Aunque existen numerosos diccionarios de regionalismos (mexicanismos, colombianismos, peruanismos, etc.), para ser una lengua con tanta diversidad léxica, tiene muy pocos diccionarios integrales, que varían mucho en el número de palabras y acepciones que documentan.

    • El Diccionario de la lengua española (dle) de la rae tiene 93 111 entradas lexicográficas (23ª edición, 2014)
    • El Diccionario de uso del español de María Moliner (4ª versión, 2016) tiene 92 700 entradas, que corresponden, reorganizadas, a las del dle
    • El Diccionario del español de Uruguay (deu) tiene 9 117 entradas lexicográficas y un total de 14 057 acepciones
    • El Diccionario del español dominicano tiene 10 903 entradas y 14 054 acepciones
    • El Diccionario básico escolar (dbe 4.0) de Cuba cuenta con 11 792 entradas y 21 337 acepciones
    • El Diccionario integral del español de Argentina (diea) tiene más de 40 000 entradas y 80 000 acepciones.
    • El Diccionario del español de México (dem) de El Colegio de México tiene hoy 32 630 artículos lexicográficos que comprenden 60 826 acepciones

 

A diferencia de los diccionarios impresos, los diccionarios en línea permiten obtener datos de las consultas que se les hacen. En El Colegio de México se cuenta con información sobre las consultas que hacen los usuarios del dem en línea (https://dem.colmex.mx/), en operación desde agosto de 2012.

    • Número de consultas al dem entre agosto de 2012 y septiembre de 2013: 180 164
    • Número de consultas solamente en el mes de mayo de 2020: 186 379

 


 

Otros datos interesantes se relacionan con el origen de las búsquedas de palabras. El primer año del dem se hicieron consultas desde 91 países. En las tablas siguientes se listan los países desde donde se hicieron más consultas. A la izquierda están aquéllos más frecuentes el primer año de la página del dem y a la derecha aquéllos con más consultas en lo que va de este año:

Consultas entre agosto 2012
y septiembre 2013
Consultas en 2020 (enero-mayo)
México 117 116 Estados Unidos 270 399
Estados Unidos 23 973 México 211 994
Alemania 10 317 España 18 242
España 6 980 Singapur 7 864
Francia 6 625 Brasil 5 538

 

Aunque se llevan a cabo consultas al dem desde muchos países, es desde unos pocos que se hace la mayoría. España, Alemania y Francia suelen estar en los primeros lugares. Como sea, era de esperarse que el país desde donde más consultas se hacen al dem sea México. Por eso, sorprende mucho que, en lo que va de este año, la proporción de búsquedas desde Estados Unidos haya superado a la de México.

 


 

Además, el equipo del dem lleva un registro de las palabras que la gente busca en el diccionario. Naturalmente, las más buscadas varían mes con mes y año con año. En las tablas siguientes están las palabras más buscadas a lo largo del primer año (2012-2013), en los últimos cuatro meses (enero-mayo 2020) y el acumulado histórico:

2012-2013 Enero y mayo 2020 Histórico (2012-2020)
chido 244 ojete 7,726 chairo 13,273
chale 199 tzeltal 5,228 ojete 8,374
pinche 197 chairo 2,081 tzeltal 5,288
chingar 191 pendejo 1,514 pendejo 3,587
naco 183 yerbero 1,252 quesadilla 3,313
pendejo 152 tzotzil 1,244 pinche 2,968
chilango 145 palero 1,177 chido 2,747

 

Como se ve, la mayoría de los vocablos son de carácter popular o coloquial. El vocablo pendejo siempre es muy buscado. Ojete, pinche y chido también suelen aparecer entre los más consultados. Parece, por una parte, que los usuarios usan el dem como si fuera un diccionario de mexicanismos, en el que resulta muy natural buscar nuestras palabras más exóticas. Por otra parte, puede interpretarse que los usuarios están retando al dem para cumplir sus expectativas sobre los significados populares o las palabras tabú, como en otro tiempo lo hacían los niños cuando aprendían a usar los diccionarios.

Como muestran las tablas, la palabra chairo se puso de moda en los últimos tiempos y es la más consultada de toda la historia del dem en línea. El vocablo quesadilla merece todo un capítulo aparte. El equipo lexicográfico del dem ha recibido un sinnúmero de acalorados debates, discusiones y diatribas sobre la naturaleza del antojito mexicano que designa ese vocablo.

 


 

Otro aspecto del lenguaje susceptible de medirse es su carácter económico. Es bien sabido que las lenguas son sistemas económicos, en el sentido de que unas pocas unidades lingüísticas sirven para construir una infinidad de enunciados que expresan cualquier idea imaginable y seguramente muchas inimaginables.

Así, unos pocos símbolos fonológicos sirven para construir todos los signos léxicos de una lengua. En otro nivel, los gramemas (signos gramaticales) se combinan con los lexemas (signos léxicos) para expresar cualquier cosa. Unos pocos artículos, adverbios, pronombres y afijos, unas pocas preposiciones y conjunciones, y un conjunto finito de reglas combinatorias permiten generar, junto con los signos léxicos, un número infinito de enunciados.

El español cuenta con un conjunto cerrado de palabras función y no más de mil sufijos y grupos de sufijos de flexión y derivación, verbal y nominal, que sirven para que cualquier hablante formule en palabras cualquier idea o pensamiento.

El infinito puede tener diversos tamaños. El conjunto infinito de números naturales es mayor que el de los números primos, que también es infinito. Todos los números primos pertenecen al conjunto de números naturales, pero no cualquier número natural pertenece al de los primos. Similarmente, los conjuntos siguientes son infinitos, pero tienen diferentes tamaños:

    • Número de enunciados posibles del español: ∞a
    • Número de enunciados del español que han sido o serán escritos: tiende al ∞b (mientras el español se siga escribiendo)
    • Número de enunciados del español pronunciados por algún ser humano y jamás escritos: tiende al ∞c (mientras el español se siga hablando)
    • Número de enunciados del español que jamás se pronunciarán ni se escribirán: ∞d
    • Por lo tanto, la jerarquía de tamaños de los diversos infinitos es: ∞a > ∞d > ∞c > ∞b

 


 

Otras cifras, “otros datos” y otras variedades del español

 

TOMÁS BOCANEGRA / VALENTÍN ORTIZ**

 

Porcentajes de otras lenguas en relación con el español:

    • Chino mandarín: se habla en 24 países; es lengua oficial en 5; representa alrededor de 17.5% de la población mundial
    • Hindi: se habla en 8 países; es lengua oficial en India; representa alrededor de 7.3% de la población mundial
    • Español: se habla en 34 países; es lengua oficial en 21; representa alrededor de 5.9% de la población mundial
    • Inglés: se habla en 55 países; es lengua oficial en 36; representa alrededor de 5.3% de la población mundial
    • Árabe: se habla en 32 países; es lengua oficial en 21; representa alrededor de 4.5% de la población mundial

 


 

La letra ñ no entró en el diccionario de la Real Academia Española sino hasta el año de 1803. Ni la grafía ni su sonido son exclusivos del español: en la península ibérica, el gallego y el asturiano la usan; en América Latina, muchas lenguas indígenas, como el mixteco, el zapoteco, el otomí, el quechua, el aymara, el mapuche y el guaraní también cuentan con ella. A pesar de que en 1993 el gobierno español consiguió salvar la ñ acogiéndose al tratado de Maastricht —uno de los tratados fundacionales de la Unión Europea, que admite excepciones de carácter cultural—, aún resulta imposible usar direcciones de correo electrónico que contengan la ñ.

 


 

El español es la lengua nacional, o una de las lenguas oficiales, de 18 países americanos (Argentina, Bolivia, Chile, Colombia, Costa Rica, Cuba, República Dominicana, Ecuador, El Salvador, Guatemala, Honduras, México, Nicaragua, Panamá, Paraguay, Perú, Uruguay y Venezuela), así como del Estado Libre Asociado de Puerto Rico, además de España, en Europa, y Guinea Ecuatorial, en África. En México, a pesar de ser el país con mayor número de hispanohablantes en el mundo, no hay un idioma oficial.

 


 

Entre las palabras más largas de la lengua española, de acuerdo con la rae, están electroencefalografista (23 letras), esternocleidomastoideo (22 letras), otorrinolaringólogo (19 letras), arteriosclerosis (16 letras), paralelepípedo (14 letras) y caleidoscopio (13 letras). Se dice por ahí que el dem tiene registrada alguna palabra de 24 letras.

 


 

Entre las palabras españolas que a muchos hablantes de otras lenguas les cuesta trabajo pronunciar se encuentran despotricar, armadillo, ubérrimo, desarrolladores, sonrojado, coscorrón, ronronear, terrestre, piscina, conciente, jamonero, zurcir, zafarrancho, inexorable y bibliográfico. Suele ser divertido escuchar a un angloparlante quejarse de que no encuentra el cargador de su celular.

 


 

Fue famosa la decisión de incluir, allá por el año de 1992, el verbo cantinflear en el Diccionario de la rae. Con todo, hay muchos mexicanismos que todavía no han sido documentados: entre los más frecuentes se encuentran los vocablos baquetón, bomberazo, bonche, cooperacha, chipocludo, enmuinarse, garigolear, huesear, locochón, malacopa, merequetengue, nel, quiubo, rollero, sacatón, teporocho, teto y vocho.

 


 

  • Aunque las cifras difieren de acuerdo con la fuente, podría decirse que el español cuenta con un caudal léxico de unas 93 000 palabras, si nos guiamos por el número de entradas lexicográficas del Diccionario de la rae. Si usamos el mismo criterio con el Merriam Webster, podríamos decir que el inglés tiene un caudal léxico de 470 000.
  • El promedio de palabras que utiliza a diario un hablante del español es de 300. Una persona culta, en cambio, alcanza las 500 diarias, mientras que un periodista o un escritor puede llegar a usar 3 000. Por poner un caso, Miguel de Cervantes llegó a utilizar alrededor de 8 000 palabras diferentes en su obra.
  • De acuerdo con el Index Translationum, el autor hispanohablante más traducido a otros idiomas es Gabriel García Márquez, con un total de 1 396 traducciones.
  • Francia es el país que más traducciones ha realizado de obras originalmente escritas en español (6 393), seguido de Alemania (5 030) y Estados Unidos (3 829).

 


 

Fuentes consultadas

 

Catálogo de lenguas indígenas nacionales: variantes lingüísticas de México con sus autodenominaciones y referencias geoestadísticas, México, Instituto Nacional de Lenguas Indígenas, 2008, https://www.inali.gob.mx/pdf/CLIN_completo.pdf

Corpus del español mexicano contemporáneo (cemc), México, El Colegio de México,  https://cemc.colmex.mx.

Eberhard, David M., Gary F. Simons y Charles D. Fennig (eds.), The Ethnologue. Languages of the World, 2020, https //www.ethnologue.com/

Indicadores del sector editorial privado en México 2018, México, Cámara Nacional de la Industria Editorial Mexicana, 2019.

Martín Butragueño, Pedro, y Yolanda Lastra (coords.), Corpus Sociolingüístico de la ciudad de México (cscm), 1a. ed., México, El Colegio de México, 2011-2015, https://lef.colmex.mx/corpus_sociolinguistico.html

Medina Urrea, Alfonso, “Análisis de consultas al Diccionario del español de México, en línea”, Andamios 11, núm. 26, 2014.

Proyecto para el estudio sociolingüístico del español de España y América (preseea), https://preseea.linguas.net/

Real Academia Española: Banco de datos (corpes xxi). Corpus del Español del Siglo xxi (corpes), http://www.rae.es [mayo, 2020].

Rosales Martínez, Alejandro, “Los números del dem”, Informe interno de consultas, junio, 2020.

Sierra Martínez, Gerardo E., Introducción a los corpus lingüísticos, México, Instituto de Ingeniería unam, 2017.

Taycher, Leonid, “Books of the world, stand up and be counted! All 129,864,880 of you”, 2010, http://booksearch.blogspot.com/2010/08/books-of-world-stand-up-and-be-counted.html

 

Otras fuentes electrónicas

 

https://www.datosmundial.com/idiomas/index.php

https://www.bbc.com/mundo/noticias-38214016

https://elpais.com/diario/1998/03/12/cultura/889657219_850215.html

https://www.lainformacion.com/asuntos-sociales/conozca-las-10-palabras-mas-largas-del-idioma-espanol_erutrOnUuHHtu90A11dsR1/

https://elpais.com/elpais/2017/01/09/icon/1483955123_763818.html

https://verne.elpais.com/verne/2016/05/06/mexico/1462493299_066380.html

https://www.lanacion.com.ar/lifestyle/10-curiosidades-idioma-espanol-su-dia-nid2357392

https://algarabia.com/algarabia-ninos/datos-curiosos-sobre-el-espanol/

 


1 Véase el artículo “Contar lenguas”, de Violeta Vázquez-Rojas Maldonado, en Otros Diálogos 10 (enero-marzo), 2020: https://otrosdialogos.colmex.mx/contar-lenguas.

2 Las muestras textuales son conjuntos de párrafos seleccionados aleatoriamente que pertenecen a una misma fuente bibliográfica del corpus.

3 Las palabras gráficas son las secuencias de caracteres alfanuméricos que ocurren entre espacios en un corpus.

4 Concepción Company Company, “Un cambio en proceso: el libro, ¿quién se los prestó?”, en Luna (ed.), Scripta philologica in honorem Juan M. Lope Blanch, México, iifl unam, 1992.

 


* ALFONSO MEDINA URREA

Es profesor-investigador en el Centro de Estudios Lingüísticos y Literarios de El Colegio de México. Forma parte del equipo lexicográfico del Diccionario del español de México (dem).

** TOMÁS BOCANEGRA Y  VALENTÍN ORTIZ

Forman parte del equipo de la Biblioteca Daniel Cosío Villegas.