Vi skriver mer än någonsin tidigare och summan av alla texter – Texten – utgör ett fantastiskt intressant corpus för alla möjliga olika studieområden. Att vi kan läsa samhället utifrån texter är inte en ny insikt i sig – det är tvärtom något som åtminstone går tillbaka till Foucault och den ur honom spirande diskursanalysen – men det som verkligen har förändrats är de metoder och verktyg som vi har till vårt förfogande. Med hjälp av olika tekniker för att analysera “naturligt språk” kan vi nu ge oss på de massor av text som vi gemensamt skapar på nätet.
Faktum är att det nog är dags att börja tänka på ett lager på nätet som just Texten – och förvandla den till sitt eget studieobjekt, och forskningsområde. Vad vet vi om Textens sammansättning, förändringar över tid och vad vi kan läsa ur den? Nu invänder vän av ordning att det har vi gjort i minst lika länge som datorer funnits, och det äger sin riktighet, men jag är ute efter något annat – efter ett projekt som tvärvetenskapligt försöker förstå vilken sorts källa till kunskap Texten kan vara.
Byggklossarna finns, och har funnits, länge. Sentimentsanalys, NLP, generativa textmodeller…det saknas inte angreppssätt. Det finns också en växande forskningsgren inom humaniora – den s.k. “digital humanities”-grenen – som använder dessa verktyg. Överhuvud är “computational” (vad är en bra svensk översättning?) vetenskapliga metoder på frammarsch, men det känns ändå som om det vore intressant att ta ett gemensamt grepp på allt detta och fundera mer kring själva studieobjektet.
Några intressanta exempel på verktyg och modeller kan vara en start. Google – där jag jobbar, full disclosure, har ett par verktyg.
Ngram viewer gör det möjligt att spåra olika ords förekomst i ett stort textcorpus. Man kan exempelvis kika på hur förekomsten av ordet “complexity” varierar över tid för att få en känsla för hur det begreppet växlar i betydelse:
Trends är ett annat verktyg som de flesta känner till, men överraskande få använder. Den som är intresserad av relationen mellan två begrepp i sökningar kan jämföra dessa rätt enkelt. Säg att vi vill se hur intresset varierat för Annie Lööf och Ebba Busch Thor under de senaste 12 månaderna:
Här kan vi notera att intresset för Annie Lööf fram till JÖKen var mycket högre, men allmänhetens intresse för centerns partiledare sjönk efter det till normala nivåer. Inte så svårt att tolka — möjligen kan det betyda att centern hade nytta av utdragna förhandlingar (jag säger inte att de drog ut på dem) eftersom det placerade partiet i strålkastarljuset, men att allmänhetens intresse efter överenskommelsen omedelbart falnade; beslutet var fattat, nu var centern en del av ett regeringsunderlag. Man kan också söka enbart på nyhetssökningar, och då får man en fin bild av utspelsrytm och genomslag.
Givetvis kan man lägga till fler och så teckna en del av den politiska diskursen.
Notera att genomsnittet inte riktigt motsvarar frekvensen i uppmärksamheten – något som man kan dra sina egna slutsatser av.
Det finns dock många andra intressanta exempel. Ett projekt som jag nyligen upptäckte och verkligen tycker är intressant är det s.k. osäkerhetsindexet. Förenklat mäter man hur ofta en korg med ord som indikerar osäkerhet förekommer i dagspress och följer på detta sätt allmän ekonomisk osäkerhet. Sverige finns med (tack vare fina insatser från forskarna Hanna Armelius, Isiah Hull och Hanna Stenbacka Köhler) :
Här används alltså främst dagspress, men det vore också möjligt att bygga upp ett mer robust osäkerhetsindex, en sorts mått på hur siktdjupet i framtiden och hur det minskar, samt hur det upplevs relativt andra länder. Här USA:
Det går också att blicka bakåt. I en annan intressant artikel visade ett antal forskare hur man kan konstruera ett lyckoindex genom att analysera texter:
The method uses psychological valence norms — values of happiness that can be derived from text — for thousands of words in di?erent languages to compute the relative proportion of positive and negative language for four di?erent nations (the USA, UK, Germany and Italy). The research team also controlled for the evolution of language, to take into account the fact that some words change their meaning over time.
The new index was validated against existing survey-based measures and proven to be an accurate guide to the national mood. One theory as to why books and newspaper articles are such a good source of data is that editors prefer to publish pieces which match the mood of their readers.
Studying the index, the researchers found that:
- Increases in national income do generate increases in national happiness but it takes a huge rise to have a noticeable effect at the national level
- An increase in longevity of one year had the same effect on happiness as a 4.3 per cent increase in GDP
- One less year of war had the equivalent effect on happiness of a 30 per cent rise in GDP
- In post-war UK the worst period for national happiness occurred around the appropriately named “Winter of Discontent.”
- In post-war USA the lowest point of the index coincides with the Vietnam War and the evacuation of Saigon.
Commenting on the findings, Professor Thomas Hills said: “What’s remarkable is that national subjective well-being is incredibly resilient to wars. Even temporary economic booms and busts have little long-term effect. We can see the American Civil War in our data, the revolutions of 48′ across Europe, the roaring 20’s and the Great Depression. But people quickly returned to their previous levels of subjective well-being after these events were over. Our national happiness is like an adjustable spanner that we open and close to calibrate our experiences against our recent past, with little lasting memory for the triumphs and tragedies of our age.”
Slutsatserna är fascinerande, men metodanmärkningen är också viktig: redaktörer publicerar texter som de tror matchar läsarens inställning och humör — alltså blir texterna en spegel av sin samtid, och Texten en rik källa till möjliga insikter.
Nästa steg är enkelt: vilka frågor skulle du vilja ställa till Texten och vilka verktyg tänker du använda? Här finns en växande källa till kunskap som vi behöver lära oss mer om.