Kategoriarkiv: Informationsasymmetri

AI, kinesisk folkmusik och mänskliga optima

I den här vetenskapliga artikeln lägger författarna fram en modell för hur de kan generera kinesisk folkmusik med hjälp av ”deep learning”. Det är värt att citera deras sammanfattning:

Regional style in Chinese folk songs is a rich treasure that can be used for ethnic music creation and folk culture research. In this paper, we propose MG-VAE, a music generative model based on VAE (Variational Auto-Encoder) that is capable of capturing specific music style and generating novel tunes for Chinese folk songs (Min Ge) in a manipulatable way. Specifically, we disentangle the latent space of VAE into four parts in an adversarial training way to control the information of pitch and rhythm sequence, as well as of music style and content. In detail, two classifiers are used to separate style and content latent space, and temporal supervision is utilized to disentangle the pitch and rhythm sequence. The experimental results show that the disentanglement is successful and our model is able to create novel folk songs with controllable regional styles. To our best knowledge, this is the first study on applying deep generative model and adversarial training for Chinese music generation.

Att använda maskiner för att skapa musik är inte ett nytt fenomen. Den kände kompositören / datavetaren David Cope använde – i och för sig helt annorlunda – teknik för att göra just detta för flera decennier sedan. Han är bland annat berömd för det underbara och halvknasiga faktum att man på hans webb kan ladda ned 5000 olika Bachkoraler skapade av algoritmer. Jag har själv ofta i föreläsningar använt några av hans automatiskt genererade stycken för att visa att även kreativitet – som ofta framhälls som en unikt mänsklig förmåga – utan bara kan, utan nödvändigtvis måste kunna algoritmiseras i den grova meningen att den kan beskrivas som steg i en process som sedan kan utföras av en maskin. (Fotnot: Copes sajt håller på att vittra bort och det påminner mig om något som Vint Cerf ofta inskärper i oss: vi har ingen bra plan för hur vi skall minnas digitalt).

Den mest triviala modellen av kreativitet är ju enkel: generera massor av möjliga musikstycken och välj sedan ut de som verkar mest intressanta. Det är också möjligt att tänka sig detta som en process: välj ut möjliga ”nästa steg” i ett musikstycke eller en dikt och välj, igen, de mest intressanta. Häri skiljer sig uppgiften väsentligt från att lära en dator att spela, säg, go eller schack. Där handlar det om att välja den optimala vägen framåt givet ett strikt, konkret kriterium: att vinna spelet. I kreativiteten finns det inte samma tydliga optimeringsvillkor. Vad optimerar vi för när vi skapar musik eller litteratur?

Att svara ”inget alls” vore inte bara fel, utan djupt oärligt. Kreativitet optimerar för mindre välartikulerade kriterier, och komplexiteten i denna uppsättning kriterier är enormt fascinerande. Det vi upplever som god konst gör det väl, det som vi upplever som spekulativt är egentligen ett misslyckande att optimera rätt. Här finns en paradox: att vi inte klart kan uttrycka vad det är vi optimerar för betyder inte att vi inte optimerar. Inte heller handlar det om individuella kriterier. Jag har alltmer kommit att tro att det inte finns någon privat konstsyn, lika litet som det finns privata språk. Jag har också börjat tro att det finns rent biologiska lokala optima som vi orienterar oss mot i konsten — tydligt modererade av kulturella särdrag som över tiden kommit att utvecklas till helt egna selektionstryck.

Det är värt att dröja vid. I spel har vi märkt att de lokala optima som vi upptäckt i spel som schack och go inte är globala optima alls. När en dator kan genomsöka spelrummet mer effektivt hittar den andra lokala – eller globala – optima som slår oss. Den känsla som inträder då inträder är känslan av att vi spelar mot något främmande, nästan utomjordiskt. Mjukvaran sätter drottningen i ena hörnet av schackbrädet, datorn spelar ett drag som drag 37 i Sedolmatchen, och plötsligt spelar vi inte i en mänsklig del av spelrummet längre – och datorn vinner. Men för konst är det annorlunda.

För konst handlar det om att kunna utforska det lokala optima som vi redan börjat kartlägga, eller hitta ett nytt sådant mänskligt optima och skapa inom detta. Konst vinner inte om den blir främmande, omänsklig, utomjordisk — utan blir istället helt ointressant. Det i sin tur innebär att konsten utgör en helt annan sorts praktik än spelet, ur ett rent strukturellt perspektiv. När datorn övergav de mänskliga spelen som använts som träningsdata blev den genast bättre – eftersom det lossade förtöjningarna från den mänskliga optima som vi ankrat upp vid. Men ett neuralt nätverk som skapar konst helt utan mänskliga indata blir förmodligen bara irrelevant.

Om detta stämmer innebär det att vi har en intressant fråga att ställa oss om värdet av mänskliga optima i olika sorters problemdomäner. Värdet av mänskliga frön i djuplärandets processer. Hur är det med etik, med konst, med musik, med litteratur, med filosofi? Vilka andra områden finns där vår mänskliga position i lösningsrymden har ett värde i kraft endast av att det är vi som har konstruerat den?

Det är intressant att fundera kring en närmast nihilistisk position här. Antag att någon hävdade att mänskliga optima aldrig har något egenvärde alls – vad skulle det betyda? Jo, det borde kunna betyda – givet att möjlighetsrymderna för konst, etik och musik är flera storleksordningar större än spelrummet för exempelvis go – att en dator skulle kunna upptäcka en bättre musik, en bättre etik och vackrare konst än något som vi tidigare sett, och att vi, när vi såg eller hörde denna konst, omedelbart skulle se att detta var bättre – på samma sätt som gospelaren ser att ett drag faktiskt är bättre än det drag som den mänskliga erfarenhetens ortodoxi skulle föredra.

Här finns ett sorts möjligt demarkationskriterium för olika typer av mänskliga kunskapsdomäner: en där vi kan upptäcka en överlägsen praktik och en där den mänskliga praktiken har ett egenvärde. Det betyder inte att det finns saker som datorer inte kan göra – vilket alltför länge varit en sorts besatthet i diskussionen om AI – utan att det finns saker som utvärderas enligt kriterier som gör det omöjligt för en dator att tävla med en människa på egen hand. 

Till sist, då, just detta: vad säger vi om möjligheten att vi skulle kunna använda AI för att utforska ”the human adjacent possible” i konst, musik eller litteratur? Skulle inte en AI kunna hjälpa oss att utforska det mänskliga optima som vi rör oss i när det gäller dessa domäner? Jo, det tror jag – och det är delvis svindlande.

Låt oss bli medvetet spekulativa för att försöka förstå vad detta betyder, och fråga en till synes enkel, men ändå provokativ fråga:

(i) Skrev Bach sin allra vackraste, mest fulländade musik?

Tänk dig nu hela Bachs kompositionsrymd som ett landskap som vi kan utforska med hjälp av olika sorters AI, och där vi kan hitta tomrum eller utelämnade verk, och kanske hitta en fuga i a-moll som inte skrevs, men som med alla tillgängliga kriterier borde vara den absolut vackraste, mest tekniskt fulländade fuga som Bach hade kunnat skriva. Vi skulle kanske kunna hitta ett requiem av Bach, eller ett koralstycke som han kunde ha fulländat.

Och låt oss bli ännu mer spekulativa: tänk dig att hela den mänskliga samlade konstnärliga produktionen kunde analyseras på samma sätt, och att vi kunde ställa frågor till den för att rekonstruera verk som aldrig skapades, men som i sig hade, om de skapats, varit överlägsna allt annat som skapats. Inte bara blir det då möjligt att fundera kring om det vore möjligt att rent logiskt rekonstruera en version av Aristoteles dialoger – för alltid förlorade för eftervärlden – utan det blir också möjligt att ställa frågor som vilket det vackraste musikstycke Friedrich Nietzsche hade kunnat skriva var. Vi har musik från Nietzsche, vi har teckningar, vi har texter – vore det inte möjligt att med dessa och övriga lokala optima från den mänskliga kulturen leta i rymden av möjliga verk och se vad vi kan hitta?

Vad dessa tankeexperiment fordrar, är att vi funderar kring hur vi tänker kring konst och dess värde. Kontext, receptionshistoria, återkommande användning av konst och musik — alla spelar roll och omöjliggör kanske dessa experiment. Men om de inte gör det skulle vi kunna tänka oss en framtid i vilken vi engagerar oss i en sorts det möjligas kreativa arkeologi och skapar verk som flödar ur en djupare och mer fullständig förståelse av det samlade kulturella arvet.

Det, förstås, är vad många konstnärer redan skulle hävda att de gör – utan ny teknik.

 

Informationsasymmetrier och innovation

Read/Write Web har en underbar artikel om superdatorer som på bråkdelar av ett ögonblick kan analysera nya marknader och därmed hitta trender på olika finansiella marknader som snabbt kan omsättas till handel. De mest kraftfulla av dessa algoritmer kan hitta trender och handla på basis av dem i enorm omfattning enligt artikeln (miljontals avslut i sekunden) och den som inte har access till denna information riskerar att bli akterseglad av den som kan köpa realtidsinformation (i verklig bemärkelse).

Nu har förstås en amerikansk senator bestämt sig för att det måste vara något fuffens med detta. Han rekommenderar att användningen av dessa nya tekniska handelsredskap skall begränsas.

RWW låter sig dock inte imponeras utan ställer den naturliga följdfrågan: betyder det att alla tjänster som skapar informationsasymmetrier skall förbjudas? Det är trots allt detta det handlar om: den nya tekniken och superdatorerna skapar olika typer av informationsasymmetrier, eller kan åtminstone utnyttja dem medan de fortfarande är just asymmetrier och det är detta som skapar deras värde.

I själva verket är det väl uppenbart så att realtidswebben, med twitter och RSS-flöden, redan i dag skapar väldigt tydliga asymmetrier mellan de som vet hur man konstruerar bra nyhetsflöden och de som bara följer med? Borde det bara finnas tillgång till enkla, standardiserade nyheter som delas av alla samtidigt? Svaret är naturligtvis nej. Faktum är att man nog kan vända på det: all teknik och alla affärsmodeller som skapar eller bygger på informationsasymmetrier är egentligen oerhört värdefulla. Inte bara skapar sådan teknik incitament att se till att vi lär oss mer, den skapar också möjligheter för oss att bli belönade för att vi vet något först. RWW illustrerar det fint med Breaking News Online – en onlinetjänst som bland annat har en iPhoneapp som snabbt levererar nyheter till alla oss nyhetsknarkare som vill veta först. BNOs enorma tillväxt visar att det finns en tydlig nisch för den som snabbt förmår förmedla information:

Overall, it now reaches about 1 million people around the world, most of them in the United States. In a December, 2008 survey, the majority of BNO News’ members described themselves as journalists and “news junkies.”

To compare, in early March, BNO News only reached around 30,000 people. On this day, BNO News continues to grow rapidly with between 5,000 to 10,000 new users a day.

Borde också detta förbjudas? BNO-användare kanske kan förvandla sin information till värde också, utan att solidariskt vänta tills alla vet det som de vet först. Borde kanske BNO förbjudas? De tjänar ju pengar på att andra vill veta först! Naturligtvis inte. Informationsasymmetrier är en källa till enormt värde, och kan uppmuntra extremt spännande innovation inte bara i snabb förmedling utan i vad som ibland kallas ”knowledge discovery” – analys av komplexa informationsmängder med syfte att hitta mönster som ingen annan sett förut.

Informationsasymmetrier är informationssamhällets allra mest värdefulla vara. Inte minst för att de är så kortlivade.

*

Det leder till en annan intressant fråga. Bör staten ingripa för att upprätthålla informationsasymmetrier? Antag att det funnes lagstiftning som man kunde visa hindrar att information sprids i samhället och att kunskap delas snabbt – är det då samhällsekonomiskt viktigt att se till att dessa informationsasymmetrier består? Eller borde en del av en framtida innovationspolitik vara att undanröja all lagstiftning som bevarar och onaturligt förlänger informationsasymmetrier? Det borde väl vara först då som incitamenten för att skapa mer unik kunskap som kan läggas till grund för nya informationsasymmetrier verkligen kan säkras?

All informationslagstiftning som begränsar spridningen av information minskar incitamenten att skapa nya informationsasymmetrier. Om det var lagligt förbjudet att dela information om marknader med annat än ett fåtal personer, och dessutom samtidigt, ja, då skulle inte ett öre investeras i nya sätt att hitta kunskap om och i marknadsflöden av olika slag. Informationskontroll kväver innovation. Om däremot maximal informationsspridning föreskrivs, och dessutom symmetriskt tillgänglig sådan spridning (som i olika typer av börslagstiftning), ja, då växer incitamenten att skapa nya teknologier för att hitta unik kunskap.

Det finns en lektion här: samhällen där informationsasymmetriers livstid går mot noll kommer sannolikt att vara samhällen där stora investeringar görs i just framställningen av nya informationsasymmetrier.

Informationsspridning leder till kunskapsproducerande innovation.