Voimmeko luottaa enää mihinkään?


Kari Lilja, TkT, Erikoistutkija; Sirpa Sandelin, TkT, Yliopettaja

English version: Click the link

Olen ennenkin pohtinut tiedon luotettavuutta, mutta viime aikoina uteliaisuuden rinnalle on tullut syvä huoli. Kiitos siitä kuuluu internetin työkaluille ja ennen kaikkea ChatGPT -nimiselle sovellukselle, joka tuntuu putkahtavan esille vähän sieltä kuin täältä. Jopa projekteissamme sitä on ehdotettu käytettäväksi erilaisiin tehtäviin.

Katsotaanpa tarkemmin, mistä on kyse.

Painettuun sanaan voi aina luottaa. Nämä sanat isoäitini lausui vanhan ihmisen vakaumuksella, kun rohkenin epäillä jotain hänen lehdestä löytämäänsä juttua. Äidilläni on ollut hieman samanlainen asenne: Ei kai kukaan tuollaista huvin vuoksi keksi, hän kivahti aina kun totesin, ettei kaikkea, mitä Hymyssä tai naistenlehdissä kirjoitetaan, kannata ottaa totena.

Vanha mies lukee sanomalehteä
Vanhemmilla ihmisillä voi edelleen olla luja luottamus painettuun sanaan. Kuva by Suvajit Roy from Pixabay.

Ongelmia toden ja epätoden erottamisessa uutisvirrasta on ollut niin kauan, kun tietoa on välitetty. Iltanuotioiden tarinatuokiotkin lienevät olleet melkoisen lennokkaita, koska osa tarinoista on säilynyt meidän päiviimme saakka. Tarinat maailman synnystä, ihmisen taustasta tai siitä, kuinka jumalolennot suuttuvat ihmisiin, rankaisevat uhmaavia ja palkitsevat oikeita uhrilahjoja antavia uskovia, ovat universaaleja: Kaikilta mantereilta löytyy vanhoja myyttejä, joista on löydettävissä yhteisiä elementtejä, vaikka itse tarina on muuntunut, lokalisoitunut, ajan ja paikan myötä.

Kysymykset mitä, miksi ja miten, joihin nuo myytit ovat vastanneet, ovat edelleenkin peruskysymyksiä, joihin jokaisen tutkimuksen pitäisi pyrkiä vastaamaan.

Tänä päivänä olemassa oleva tieto kaikesta on – ainakin periaatteessa – kaikkien ulottuvilla. Tieteelliset artikkelit, jotka esittelevät tutkimusten tuloksia, tai ainakin lyhennelmät niistä, abstractit, ovat avoimesti saatavilla. Wikipedia on korvannut tietosanakirjat kansanomaisemman tiedon lähteenä. Lehtien vanhat numerot löytyvät digiarkistoista ja televisio-ohjelmat omien kanaviensa verkkosivuilta, joko maksullisina tai ilmaiseksi saatavilla olevina.

Asialla on kuitenkin nurja puolensa.

Tahattomat virheet, väärin valitut lauserakenteet ja muut sisältöä ja sen ymmärtämistä vääristävät tekstinpiirteet leviävät nopeasti, ja vaikka ne korjattaisiin alkuperäisiin dokumentteihin, niitä ei koskaan saada kokonaan pois verkosta, kun ne on kerran sinne päästetty.  Myös mukatiedon, valeinformaation ja propagandan leivittäminen ja löytäminen on helpottunut ja nopeutunut. Puhutaan jopa informaatiosodasta. Oma lukunsa on tarjolla olevan tiedon määrä, joka on niin valtava, että vain ani harva pystyy omaksumaan ja suodattamaan kaiken eteensä tulleen informaation. Onneksi tekoälyyn perustuvat ratkaisut, kuten ChatGPT, auttavat meitä suodattamaan kaikesta datasta vain tarvitsemamme ja totuudenmukaisen datan…

Vai auttavatko?

Ongelman ydin on lähdetiedon laatu. ChatGPT on opetettu ja sitä opetetaan pääosin verkosta löydettyjen avoimen datan aineistojen avulla. Tällä hetkellä – ohjelman omien sivujen mukaan – opetukseen käytetty aineisto on pääosin julkaistu vuonna 2021 ja ennen sitä. On paljon aloja, joilla tieto muuttuu hyvinkin nopeasti uusien tutkimustulosten myötä. Käytettävissä olevan aineiston määrä on lisäksi suoraan suhteessa kieleen, jolla aineisto on julkaistu. Länsimaisista kielistä eniten aineistoa julkaistaan englanniksi, jolloin on olemassa suuri vaara, että oppivat algoritmit painottavat vastauksissaan anglo-amerikkalaisen kulttuurialueen käytäntöjä, tapoja ja säädöksiä ja saattavat esimerkiksi ohjeistaa laittamaan saunan lattialle pitkänukkaisen kokolattiamaton.

ChatGPT:n alias
Menee vielä kauan aikaa ennen kuin algoritmit pystyvät korvaamaan aivot. Kuva by Alexandra_Koch from Pixabay

Wikipedia, tuo nykyajan ensyklopedia, on sekin täynnä vaaran paikkoja. Sen tuotanto perustuu vapaaehtoisuuteen ja vertaiskontrolliin. Kuka tahansa voi tuottaa sinne aineistoa ja korjata vääriä tietoja. Valitettavasti korjaaminen ei aina rajoitu virheiden oikaisuun vaan myös oikeiden tietojen vääristelyä tapahtuu. Joko tahallaan tai hyvässä uskossa sen takia, että korjaaja on joko ymmärtänyt jotain väärin tai uskoo jotain dis- tai misinfomaatiota levittävää sivustoa tai muuta lähdettä. Erityisen mielenkiintoisia ovat Wikipedian henkilöistä kertovat sivut. Koskaan emme voi tietää, onko tietoja päivittänyt henkilö itse, ystävä, fani vai pahin vihollinen, asianharrastaja, yhden asian puolestapuhuja  vai tahallaan asiaa vääristelevä.

Ja juuri tuosta henkilöstä saattaa riippua artikkelin luotettavuus.

Törmäsin Wikipediassa esimerkkiin, jossa 7 vuotta aikaisemmin murhattu henkilö olisi Wikipedian mukaan määrätty tutkimaan toisen henkilön murhaa. Virhe on olennainen, mutta vain henkilö, joka on perehtynyt molempiin artikkelissa esiintyviin tapauksiin, voi havaita sen: ”… Talvisodan sytyttyä sisäministeri Ernst von Born määräsi tutkimuksia edelleen jatkettaviksi. Tutkinnanjohtajana oli ensin komisario Johan Markus ja hänen jälkeensä myöhemmin virkatehtävissä surmattu lääninetsivä Albert Ojala. Kaikkiaan Holmin kuolemaa tutki vuosien saatossa 13 eri rikostutkijaa, joista ainoastaan yksi selvisi ilman henkilökohtaisia seurauksia virkaurallaan. Murha jäi kuitenkin selvittämättä.”  (https://fi.wikipedia.org/wiki/Yrjö_Holm, noudettu 13.2.2023)

Todellisuudessa työmies Yrjö Holm murhattiin 4.7.1930. Hänen murhaansa tutkivat vuosina 1930 – 1932 (tässä järjestyksessä) ainakin Tammelan nimismiespiirin apulaisnimismies Tapaninen, lääninetsivä Brynolf Hill, Vaasan läänin poliisitarkastaja Santeri Pimentola sekä lääninetsivät Toivo Görstrand ja Albert Ojala, jotka saivat määräyksen tapauksen tutkimiseen 15.6.1932. Albert Ojala surmattiin 1.8.1932. Talvisota alkoi 30.11.1939 ja päättyi 13.3.1940.

Rivi tietosanakirjoja hyllyssä
Tietosanakirjat on nyt korvattu netistä löytyvillä dokumenteilla… Kuva by M. H. from Pixabay.

Emme voi tietää, kuinka paljon tällaisia virheitä avoimen datan lähteissä on, ja miten tekoälyalgoritmit pystyvät niitä havaitsemaan ja suodattamaan.

Entäpä sitten ChatGPT? Kysyin häneltä, kuka murhasi Yrjö Holmin, koska, ja ketkä tutkivat hänen murhaansa. Yllätykseni oli suuri, kun ChatGPT tunsi henkilön, mutta, mutta… Näin ChatGPT vastasi:

Yrjö Holm oli suomalainen diplomaatti, joka murhattiin vuonna 1961. Hänen murhansa tutkintaa suorittivat tuolloin Suomen poliisi ja tiedustelupalvelut.

Käytettävissä olevien tietojen mukaan Holmin murhaa tutkivat rikospoliisi ja Suojelupoliisi (SUPO) vuonna 1961. Tapaus on kuitenkin edelleen ratkaisematta, eikä ketään ole lopullisesti tunnistettu Holmin murhaajaksi. On ollut erilaisia teorioita ja huhuja siitä, kuka on saattanut olla vastuussa murhasta, mutta yhtäkään ei ole vahvistettu.

Alkuperäinen keskustelu on alla englanninkielisessä versiossa. Kun kysyin asiaa uudelleen, tekstiin lisättiin Holmin asemaksi pääkonsuli, asemapaikaksi Los Angeles, tutkimuksiin liitettiin FBI, ja tutkimuksia jatkettiin 2000 – luvulla. Esseeseen, jonka tämä mukatiedon tuottaja pyynnöstäni laati, oli koottu yksityiskohtia monista eri tapauksista pääasiassa Yhdysvaltojen puolelta, lähteenä saattoi olla esimerkiksi tämä lista. Ulkoministeriön mukaan Suomen LA:n pääkonsulina vuosina 1948 – 1964 toimi Yrjö Paloheimo eikä diplomaattikunnasta löytynyt Yrjö Holmia, joka olisi surmattu. Albert Ojalaa botti ei tuntenut lainkaan. Mielenkiinnolla odotan, mitä ChatGPT seuraavalla kerralla loruilee, sillä yritin opettaa hänelle Albert Ojalan ja sekatyömies Yrjö Holmin välisen yhteyden.

Tässä mahdollisuudessa opettaa algoritmille uusia faktoja piilee suuri yhteiskunnallinen riski.

Koira tuijottaa katsojaa.
Joskus on syytä luottaa vainuunsa. Kuva by Walter Bieck from Pixabay

Yksi ajallemme ominainen piirre on mielipiteen, faktan ja moraalikysymysten sekoittuminen erityisesti asioissa, jotka kiihdyttävät ns. suuren yleisön mieliä. Tällaisia aihepiirejä ovat viime vuosina olleet ilmastonmuutos, #MeToo, rokotuskielteisyys ja COVID, joissa faktat ja fiktio ovat ainakin sosiaalisen median keskusteluissa menneet sekaisin kuin Jokisen eväät. Vaikutukset ovat heijastuneet myös tieteellisiin julkaisuihin ja ainakin ilmastonmuutoksen kieltäjät ja sen innokkaimmat tunnustajat sekä rokotekriittiset piirit ovat julkaisseet huomattavan määrän artikkeleita, joiden tieteellinen perusta saattaa olla hyvinkin hatara tai (ilmastonmuutoksen osalta) painottua kasvihuonekaasuihin, vaikka kestävyys ja kestävä kehitys on paljon laajempi kokonaisuus. Jos tällaisia harhakuvia, puolitotuuksia tai suoranaisia valheita päätyy tietokantaan, jota lapset ja lapsenmieliset tutkijoita myöten pitävät ikuisen totuuden lähteenä, ei evidenssillä ole enää mitään merkitystä.

Tämä kaikki haastaa digitalisaatiosta voimansa ottavan yhteiskunta 5.0:n yhä tarkempaan ja huolellisempaan lähdekritiikkiin ja käytettävissä olevan informaation laadun varmistamiseen.

English version: Can we trust in anything?

I have been worrying about the reliability of the knowledge even earlier, but recently this doubt has changed to a deep anxiety that has replaced the curiosity. Thanks for that goes to internet tools and above all to an application called ChatGPT, which seems to pop up a little here and there. Even in our projects it has been suggested to be used for various tasks.

Let’s see what it is all about.

You can always trust the printed word. These words my grandmother said with the conviction of the old person when I dared to suspect something he found in his magazine. My mother has had a bit of a similar attitude: I guess nobody invented that for fun, she was snorted every time I said that not everything that is written in yellow press or in women’s magazines is worth taking true.

Old man reading the newspaper
Especially the elderly may still have a strong trust on printed text. Image by Suvajit Roy from Pixabay.

There have been problems with the distinction between facts and fiction from the news stream so far the information has been communicated. Even the storytelling by the campfire has probably been quite vivid, as some of the stories have survived to our days. Stories about the birth of the world, from man’s background, or how deity creatures get angry with humans, punish defiance and reward correcct sacrificial gifts, are universal: there are old myths on all continents with common elements, even though the story itself has changed according to time and place, been localized.

The questions of what, why and how, to which those myths have answered, are still fundamental questions that every research should try to answer.

Today, existing information about everything is – at least in principle – accessible to everyone. Scientific articles that present the results of research, or at least their abbreviations, abstracts, are openly available. Wikipedia has replaced encyclopedias as a source of more popular information. Old issues of newspapers can be found in digital archives and television programs on the websites of their own channels, either paid or available for free.

However, there is a downside.

Unintentional errors, poorly chosen sentence structures and other textual features that distort the content and its understanding, are spreading quickly, and even if they are corrected in the original documents, they can never be completely removed from the network once they are released there. Spreading and finding false information, false information and propaganda has also become easier and faster. There has even been discussed about “information war”. The amount of available information has grown to its own amount, that is so huge that only a few are able to absorb and filter all the information that comes in front of them. Fortunately, AI-based solutions like ChatGPT help us filter all the data to only the data we need and the truth…

Or do they help?

The core of the problem is in the quality of the source information. ChatGPT has been taught, and is mainly taught, through open data material found on the web. Currently, according to the program’s own pages – the material used for teaching was largely published in and before 2021. There are many areas where information changes very quickly with new research results. In addition, the amount of material available is directly in relation to the language published. Of the Western languages, the most material is probably published in English, with great danger that the learning algorithms emphasize in their answers to the practices, habits and regulations of the Anglo-American cultural region, and may, for example, instruct to fit the thick carpet on the floor of the sauna.

Alias of ChatGPT
It takes time before algorithm can replace human brains. Image by Alexandra_Koch from Pixabay

Wikipedia, that modern encyclopedia, is also full of hazards. Its production is based on volunteering and peer control. Anyone can produce material there and correct false information. Unfortunately, repair is not always limited to correcting errors, but also the right information is distorted. Either deliberately or in good faith, because the repairman either misunderstood something or believes in a site or other source that spreads the dis- or misinfomation. Particularly interesting are the pages about Wikipedia. We can never know if the information has been updated by the person, a friend, a fan or the worst enemy, an enthusiast,  member of  the movement of one issue, or intentionally distorting.

And it is that person the reliability of the article may depend on.

In Wikipedia, I came across an example where a person murdered 7 years earlier would have been ordered to investigate the murder of another person, according to Wikipedia. The error is essential, but only a person who is familiar with both cases in the article can see it: “… When the Winter War broke out, the Minister of the Interior Ernst von Born ordered the investigations to continue. The investigator was first Commissioner Johan Markus and later, after him, Albert Ojala, who was killed in official duties. In total, Holm’s death was studied over the years by 13 different criminal investigators, only one of whom survived without personal consequences in his career. However, the murder remained unresolved. ” (https://en.wikipedia.org/wiki/yrjö_holm, picked up 13.2.2023)

In reality, the worker Yrjö Holm was murdered on July 4, 1930. His murder was investigated between 1930 and 1932 (in this order) at least Tapaninen, the rural police chief of Tammela District, the county detective Brynolf Hill, the Vaasa district police inspector Santeri Pimentola, and the county detectives Toivo Görstrand and Albert Ojala, who were ordered to investigate the case on June 15, 1932. Albert Ojala was killed on August 1, 1932. The Winter War began on November 30, 1939 and ended on March 13, 1940.

row of encyclopedias on the shelf
The encyclopedias have now been replaced with documents in the internet. Image by M. H. from Pixabay

We do not know how many such errors in the sources of open data and how artificial intelligence algorithms can detect and filter them.

Thus, what about ChatGPT? I asked him who murdered Yrjö Holm, when, and who investigated his murder. My surprise was great when the ChatGPT knew a person but, but… this is what chatgpt replied:

Question: Who investigated the murder of worker Yrjö Holm in Finland and when

Answer: Yrjö Holm was a Finnish diplomat who was murdered in 1961. The investigation into his murder was carried out by the Finnish police and intelligence agencies at the time.

According to the available information, the investigation into Holm’s murder was conducted by the Finnish Criminal Police and the Finnish Security Police (SUPO) in 1961. However, the case remains unsolved to this day, and no one has been definitively identified as Holm’s killer. There have been various theories and rumours about who may have been responsible for the murder, but none have been confirmed.

When I asked again, details like profession of Holm (Finnish General Consul), Los Angeles as place of the homicide, FBI participated the investigations, and investigations continued in the 2000s, were added to the text. The essay, which this AI produced by my request, had compiled details of many different cases mainly from the United States. For example, this list may have been among the sources. According to the Ministry of Foreign Affairs, Yrjö Paloheimo was the Consul of Finland in LA between 1948 and 1964, and they did not found any person called Yrjö Holm, who had been diplomat, and had been killed. The bot didn’t know Albert Ojala at all. It will be interesting to see, what the ChatGPT chatters in the next time, because I tried to teach him the connection between Albert Ojala and worker Yrjö Holm.

In this opportunity, to teach new facts to the algorithm, there is a great societal risk.

Dog staring at you
Sometimes it is good to trust in your nose. Image by Walter Bieck from Pixabay

One of the trends of our time is the mix of opinion, fact, and moral issues, especially in matters that tends to rise the so-called general opinion. In recent years, such topics have been climate change, #metoo, vaccination and covid, where facts and fiction have, at least in social media discussions, become confused. The effects have also been reflected into scientific publications, and at least climate change sceptics and its most enthusiastic confessors and vaccine -critical circles have published a significant number of articles whose scientific basis may be very fragile or (in case of climate change), emphasize greenhouse gas emissions although sustainability and sustainable development are a much wider range. If such illusions, half-truths, or direct lies end up in a database that children and child -minded researchers consider to be an eternal truth, the idea of evidence-based science is no longer valid.

All of this challenges the society of 5.0, which receives its power from digitalisation, to increasingly accurate and careful source criticism and to ensure the quality of the information available.

Artikkeli on kirjoitettu Euroopan unionin Erasmus+ -ohjelman rahoittamien BA&VET, Dig-Con ja Sustainabuild -hankkeiden puitteissa. Vastuu artikkelissa esitetyistä näkemyksistä on yksinomaan kirjoittajilla.

This article was written in the framework of the BA&VET, Dig-Con and Sustainabuild-projects funded by the European Union’s Erasmus + program. The sole responsibility for the views expressed in this article lies with the authors.