Fox News-kijkers schrijven over ‘BLM’ op dezelfde manier als CNN-kijkers over ‘KKK’

Fox News-kijkers schrijven over ‘BLM’ op dezelfde manier als CNN-kijkers over ‘KKK’

28 oktober 2020 0 Door Redactie SDB

Het is geen geheim dat de Amerikaanse politiek sterk gepolariseerd is geraakt .

Toch zijn er waarschijnlijk maar weinig Amerikanen die ooit getuige zijn geweest van iets dat vergelijkbaar is met het eerste presidentiële debat van dit najaar .

Was het echt zo dat de natie het niet beter kon doen dan een verbaal voedselgevecht, waarbij twee kandidaten beledigingen van de vierde klas slingerden en langs elkaar praatten?

Voor ons was het dissonante debat nog maar een symptoom van het rafelige burgerdiscours van de natie, dat we in een recente studie konden aantonen dat ze zich uitstrekken tot de woorden die we gebruiken om over politiek te praten.

Eerder dit jaar zijn we begonnen met het samenstellen van een dataset die bestaat uit alle reacties van kijkers op YouTube-video’s die zijn gepost door vier televisienetwerken – MSNBC, CNN, Fox News en One America News Network – die gericht zijn op delen van het politieke spectrum . Samen bevat de dataset meer dan 85 miljoen commentaren op meer dan 200.000 video’s van 6,5 miljoen kijkers sinds 2014.

We hebben onderzocht of er in de commentarensecties verschillende varianten van het Engels zijn geschreven, vergelijkbaar met het onderscheid tussen Brits Engels en Amerikaans Engels .

Met behulp van machine learning-methoden ontdekten we dat deze permutaties bestaan. Bovendien kunnen we ze rangschikken in termen van de “linksheid” en de “juistheid”. Voor zover wij weten, is dit de eerste empirische demonstratie van kwantificeerbare taalverschillen in nieuwsgroepen.

Onze tweede bevinding was echter nog meer onverwacht.

Ons vertaalsysteem voor machine learning ontdekte dat woorden met zeer verschillende betekenissen, zoals ‘KKK’ en ‘BLM’, in exact dezelfde contexten werden gebruikt, afhankelijk van het YouTube-kanaal dat werd geanalyseerd.

Het bedrijf houdt een woord

Bij het vertalen van twee verschillende talen – bijvoorbeeld Spaans en Engels – beginnen geautomatiseerde vertaalsystemen zoals Google Translate met een grote trainingsset met teksten in beide talen. Het systeem past vervolgens machine learning-methoden toe om beter te worden in vertalen.

Deze technologie is in de loop der jaren steeds nauwkeuriger geworden dankzij twee belangrijke inzichten.

De eerste dateert uit de jaren vijftig, toen taalkundige John Rupert Firth het aforisme bedacht: “Je zult een woord kennen van het gezelschap dat het bewaart.”

Voor moderne automatische vertaalsystemen is het “bedrijf” dat een woord bewaart de “context” of de woorden eromheen. Het Engelse woord ‘druif’ komt bijvoorbeeld voor in contexten als ‘druivensap’ en ‘wijnstok’, terwijl het equivalente woord in het Spaans, uva , in dezelfde contexten voorkomt – jugo de uva , vid de uva – in Spaanse zinnen .

De tweede belangrijke ontdekking kwam vrij recent. Een studie uit 2013 vond een manier om de context van een woord in de ene taal te identificeren – en daarmee te koppelen – aan de context in een andere. Moderne machinevertaling is sterk afhankelijk van dit proces.

Wat we hebben gedaan, is dit type vertaling op een geheel nieuwe manier gebruiken : Engels naar het Engels vertalen.

Wanneer ‘Trumptards’ ‘sneeuwvlokken’ worden

Dat klinkt misschien bizar. Waarom Engels naar Engels vertalen?

Overweeg Amerikaans Engels en Brits Engels. Veel woorden zijn in beide talen hetzelfde. Toch kunnen er subtiele verschillen zijn. Bijvoorbeeld, “appartement” in Amerikaans Engels kan worden vertaald in “flat” in Brits Engels.

Voor de doeleinden van ons onderzoek hebben we de taal die in de commentaarsectie van elk netwerk wordt gebruikt, “MSNBC-English”, “CNN-English”, “Fox-English” en “OneAmerica-English” genoemd. Na analyse van de commentaren hebben onze vertaalalgoritmen twee verschillende patronen van “verkeerd uitgelijnde woorden” blootgelegd – termen die niet identiek zijn in de commentaarsecties, maar in dezelfde contexten worden gebruikt.

Het ene type was vergelijkbaar met “flat” en “flat”, in de zin dat beide ogenschijnlijk hetzelfde beschrijven. De woordparen die we hebben ontdekt, hebben echter verschillende intonaties. We ontdekten bijvoorbeeld dat wat de ene gemeenschap ‘Pelosi’ noemt, de andere ‘Pelousy’; en “Trump” in de ene nieuwstaal vertaalt zich in “Drumpf” in een andere.

Een tweede – en dieper – soort verkeerde uitlijning deed zich voor toen de twee woorden verwijzen naar twee fundamenteel verschillende dingen.

We ontdekten bijvoorbeeld dat in CNN-Engels “KKK” – de afkorting voor de Ku Klux Klan – door ons algoritme wordt vertaald naar “BLM” – een afkorting voor Black Lives Matter – in Fox-Engels. Het algoritme stelt in feite vast dat de opmerkingen van de ene gemeenschap over KKK veel lijken op de opmerkingen van de andere over BLM. Hoewel de geloofssystemen van de KKK en BLM ongeveer net zo verschillend zijn als maar kan, afhankelijk van het commentaargedeelte, lijken ze elk iets soortgelijks onheilspellends en bedreigend te vertegenwoordigen.

CNN-English en Fox-English zijn niet de enige twee talen die dit soort afwijkingen vertonen. Het conservatieve uiteinde van het spectrum zelf valt uiteen in twee talen. Bijvoorbeeld, “masker” in Fox-English vertaalt naar “muilkorf” in OneAmerica-Engels, en weerspiegelt de verschillende houdingen tussen deze subgemeenschappen.

Er lijkt een spiegelachtige dualiteit in het spel te zijn. “Conservatisme” wordt “liberalisme”, “rood” wordt vertaald naar “blauw”, terwijl “Cooper” wordt omgezet in “Hannity”.

Er is ook geen gebrek aan wat alleen kinderachtig uitschelden kan worden genoemd.

“Trumptards” in CNN-Engels vertaalt naar ” sneeuwvlokken ” in Fox-Engels; “Trumpty” in CNN-Engels vertaalt naar “Obummer” in Fox-Engels; en “republicunts” in CNN-Engels vertaalt naar “democraps” in Fox-Engels.

Onbekend terrein

Taalkundigen hebben lang benadrukt dat voor effectieve communicatie tussen mensen met verschillende overtuigingen een gemeenschappelijke basis vereist is . Onze bevindingen laten zien dat de manier waarop we praten over politieke kwesties steeds meer uiteenloopt; afhankelijk van wie er schrijft, kan een gewoon woord doordrenkt zijn met een geheel andere betekenis.

We vragen ons af: hoe ver zijn we verwijderd van het punt waarop geen terugkeer mogelijk is, wanneer deze taalverschillen de gemeenschappelijke basis die nodig is voor productieve communicatie, beginnen uit te hollen?

Hebben echokamers op sociale media de politieke polarisatie verergerd tot het punt waarop deze taalafwijkingen in het politieke discours zijn ingebakken?

Wanneer zal “democratie” in de ene taalvariant stoppen met vertalen naar “democratie” in de andere?

Reacties

Reacties