La Babel del Twitter

Delia Mocanu, Andrea Baroncheli, Nicola Perra, Bruno Gonçalves i Alesandro Vespignani publiquen un article de 18 pàgines sobre les possibilitats i limitacions d’emprar la geolocalització de les piulades del Twitter en la cartografia dels usos lingüístics.

Al capdavall, les xarxes socials generen una quantitat ingent de dades de tota mena sobre les activitats humanes. És clar que l’anàlisi d’aquestes dades és exigent. Cal evitar els biaixos que deriven de les pròpies estratificacions sòcio-econòmiques, que limiten seriosament l’accés a les xarxes socials. Mocanu et al. estudien l’aplicabilitat concreta dels microblogs del Twitter a la geografia lingüística, tant en l’escala global, com en la regional i local. Els autors consideren que aquestes dades ja poden ésser prou rellevants com per informar-nos, entre d’altres de a) l’homogeneïtat lingüística de diferents països; b) els patrons estacionals turístics; c) la distribució geogràfica de diferents llengües en regions multilingües. En aquest tercer aspecte, l’estudi tracta la situació lingüística a la Catalunya Central i les relacions entre el pes de les llengües espanyola i catalana, la qual cosa, per cert, ja ha provocat les piulades corresponents a Twitter.

20 mesos de dades

Les anàlisi es basen en dades recollides a Twitter entre el 18 d’octubre del 2010 i el 17 de maig del 2012, i que contemplen piulades emeses des de dispositius mòbils (smartphones i tablets, fonamentalment). Durant aquest període, es van emetre unes 650.000 piulades geolocalitzades cada dia. L’emissió global fou de 380 milions de piulades, generades per 6 milions d’usuaris diferents. Les tècniques emprades pels autors per la detecció de llengües (Chromium Compact Language Detector), els permeteren identificar 78 idiomes diferents. És important recordar que la geolocalització és un tret minoritari en la microblogosfera: tan sols un 1% de les piulades emeses són geolocalitzades.

Les diferències en la prevalença del Twitter

Encara que els autors se centren en les diferències de prevalença del Twitter entre territoris estatals, val a dir que també hi ha diferències no pas menys importants degudes a la disponibilitat de dispositius mòbils i de connexió a Internet entre les diferents classes i sectors sòcio-econòmics, gèneres, edats, etc., que cohabiten en un mateix territori estatal.

És simptomàtica la co-relació que els autors han trobat entre l’adopció del Twitter en dispositius mòbils per a cada territori estatal i el PIB del territori estatal. El fet que les prevalences de Twitter en cada territori estatal segueixin també uns patrons continentals assenyalaria, al parer dels autors, l’acció d’altres factors sòcio-econòmics, no necessàriament reflectits en el PIB.

Per analitzar la diversitat en l’ús del Twitter entre els habitants d’una mateixa localitat, els autors empren la funció de densitat de probabilitat p (N) que un determinat usuari piuli en un dia. Aquesta funció de probabilitat assenyala, efectivament, que les societats humanes són heterogènies pel que fa a l’ús del Twitter (amb un nombre molt reduït d’usuaris que emet la majoria de piulades). Però aquesta p(N) és similar en els diferents països, siguin pobres o rics, i també entre les diferents comunitats lingüístiques, tant si s’expressen en una “llengua imperial” o en una “llengua territorial”. L’heterogeneïtat a nivell individual, doncs, produeix una homogeneïtat estatística a nivell de població. En tot cas, els autors, per analitzar els comportaments lingüístics en el Twitter d’una localitat fan un tractament d’anivellament de dades, que posa al mateix nivell els grans piuladors amb els piuladors modestos.

La Babel del Twitter

De llarg, la llengua dominant al Twitter és l’anglès. En segon lloc, però sis vegades menys popular que l’anglès, tenim l’espanyol. La tercera llengua és el malai-indonesi (Bahasa Melayu/Bahasa Indonesia), cosa que reflecteix la forta activitat piuladora d’Indonèsia en termes absoluts.

L’ús del Twitter en anglès va molt més enllà dels anglòfons estrictes. En territoris estatals com França i Itàlia, un 20% de les piulades analitzades són en anglès.

Pel que fa a la situació del Twitter a la Catalunya Central, això és el que diuen els autors:

Català i espanyol són clarament barrejats (particularment a Barcelona), encara que l’espanyol és la llengua més popular, amb un 49,0% dels usuaris, mentre que el català representen el 28,2% del senyal, la qual cosa fa l’espanyol 1,7 vegades més popular que el català. Interessantment, la relació espanyol:català és 1,25 quan es considera la llengua habitual dels adults que viuen a Catalunya, d’acord amb un estudi realitzat el 2008 per l’Institut d’Estatística de Catalunya. En aquest cas, les dades del Twitter són properes a les ades del cens, per bé que cal fer-hi algunes consideracions. Primer, les dades censals no tenen en compte la presència de turistes, l’activitat piuladora dels qual és d’altra banda registrada. Segon, els usuaris del Twitter s’esbiaixen cap a les llengües més comunes, per tal d’arribar a una audència més àmplia. Aquesta interpretació la corrobora el fet que mentre que en la nostra base de dades el català i l’espanyol suposen un 77,2% dels usuaris, representen en termes de llengua habitual el 93,5% de la població segons l’estudi esmentat abans. De la mateixa manera, l’anglès, que segons la dada del cens es parla habitualment per menys d’un 0,01% de la població resident, és adoptat pel 15,2% dels usuaris. Si anem a un nivell inferior d’inspecció, veiem que la llengua catalana s’empra més amplament en la part central i septentrional de la regió que no pas en l’àrea de Barcelona i en la costa que connecta aqueta ciutat amb Tarragona. Remarcablement, aquest patró coincideix amb el quadre general que forneixen les dades el cens, la qual cosa confirma una vegada més la validesa de les dades en-línia en l’aportació d’informacions significatives, fins i tot a una escala intranacional.

Mapa de piulades geolocalitzades en les comarques nord-centrals dels Països Catalans. El color blau assenyala el màxim percentatge de piulades en espanyol, mentre que el color groc n’assenyala en percentatge mínim. L’espanyol predomina a les àrees metropolitanes de Barcelona, Vallès, Tarragona i Lleida. En canvi, el català predomina a Girona, Vic, Manresa, Igualada, Vilafranca del Vallès, Valls o Reus, a més de fer-ho en moltes capitals comarcals i subcomarcals.

Un altre cas remarcable de bilingüisme és el de Montréal. A Montréal, el francès es parla més freqüentment (en una relació 3,1:1,0) que no pas l’anglès. No obstant, pel que fa a les piulades, l’anglès és més popular (65,5% dels usuaris, mentre que el francès arriba un 26,9%) en un factor de 2,4:1,0. Els autors atribueixen aquesta discrepància al fet que 1) l’anàlisi no contempla l’àrea metropolitana de Montréal, més francòfona; 2) l’anglès és la llengua de comunicació privilegiada a Amèrica del Nord.

També és interessant d’aquest estudi, l’anàlisi de les segones llengües més piulades entre els diferents barris metropolitans de Nova York, com són l’espanyol, el coreà (Palisades Park, Flushing), el neerlandès (Marine Park) o el rus (Coney Island).

Aquesta entrada ha esta publicada en 6. La Civilització. Afegeix a les adreces d'interès l'enllaç permanent.

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *

Aquest lloc utilitza Akismet per reduir el correu brossa. Aprendre com la informació del vostre comentari és processada