Blogi

Blogi

Tekijä Jouni Lapinkangas 31. heinäkuuta 2024
Mihin web scraping perustuu?
Tekijä Jouni Lapinkangas 31. heinäkuuta 2024
Hei, arvoisa kävijä! Dataurakointi.fi on nyt perustettu. Palvelun tarkoitus on saattaa internetin hajautettu, ja huonosti organisoitu tieto sinulle hyödylliseen formaattiin automatiikkaa käyttäen. Teen ohjelmakoodeja, jotka toteuttavat tiedonhaku-urakan huomattavasti vähemmällä työpanoksella kuin ihminen. Sinä taas säästät huomattavan määrän aikaa ja vaivaa. Olen kokenut tuskasi Dataurakointi.fin taustalla on oma ongelmani, jota lähdin itse ratkaisemaan vuosia sitten: harrastin vedonlyöntiä, ja halusin analysoida ottelutuloksia sekä -tilastoja. Tähän ei riittänyt kuitenkaan pelkkä näkymä pelaajan x edellisten otteluiden tuloksista, vaan halusin paljon laajemman tietopohjan, joka mahdollistaisi erilaisten koneoppimismallien ajamisen. Käytännössä minun siis piti saada joltain internet-sivuilta tuloksia talteen järkevässä muodossa, ja koota niistä jokin tietokannan tapainen. Taustana minulla oli jonkin verran kokemusta Excelin ja niiden makrojen pyörittelystä, ja lähdin liikkelle tietynlaisella välimallilla. Saatoin kopioida tuloksia suoraan internet-sivulta Exceliin ja sitten siistiä niitä jollain makrolla. Tämä kieltämättä oli huomattavasti tehokkaampaa kuin pelkästään naputella tietoja käsin. Käsin naputteluakin kyllä tuli harrastettua. Python-koodi voittaa välimallin ratkaisut Joitakin vuosia sitten maailmani kuitenkin kirkastui: aloin opetella python-ohjelmointikieltä ja ymmärsin, että pythonin eri kirjastoilla pystyisi toteuttamaan ”web scrapingia”. Termi kääntyy suomeksi esimerkiksi ”kaavinnaksi”, mutta käytän yleensä itse englanninkielistä termiä. Web scraping tarkoittaa automatisoitua datan hakemista verkkosivuilta ja sen muutosta sopivaan formaattiin. Käytännössä siis vaikkapa 10 000 jalkapallo-ottelua, jotka ovat hajallaan sivustolla tai sivustoilla tuodaan yhteen excel-taulukkoon, csv-tiedostoon, json-tiedostoon tai tietokantaan. Näin tiedosta on paljon enemmän hyötyä ja siitä pystytään tekemään analyysia. Lopulta monien opettelutuntien jälkeen minulla oli ohjelma, jonka jätin työstämään aiemmin itse tekemiäni hommia: tässä todella tehostettiin tuotantoa rankalla kädellä! Anna minun hakea datat, keskity ydinosaamiseesi Web scraping on minusta hauskaa ja hyödyllistä: miksi en siis tarjoaisi oppimiani niksejä sinunkin hyödyksesi? Ole rohkeasti yhteydessä ja kerro mitä tarvitset: selvitetään voisiko osaamisestani olla hyötyä sinullekin.
Share by: