Directory

OpenRefine - Wikipedia, entziklopedia askea. Edukira joan

OpenRefine

Wikipedia, Entziklopedia askea
 OpenRefine
Jatorria
Azken bertsioa3.8.7
Ezaugarriak
Hizkuntzaingelesa, italiera, txinera, japoniera eta frantsesa
Programazio-lengoaiaJava eta JavaScript
Irakur dezaketab-separated values (en) Itzuli, CSV, Office Open XML Spreadsheet Document, ECMA-376 1st Edition (en) Itzuli, RDF/XML (en) Itzuli, MARC standards (en) Itzuli, JavaScript Object Notation eta Notation3 (en) Itzuli
Sistema eragileaMicrosoft Windows, MacOS X eta Linux
Egile-eskubideakcopyrightduna
LizentziaBSD lizentziak
Ekoizpena
GaratzaileaGoogle, Metaweb eta Antonin Delpeuch
Fikzioa
Erabiltzen duWikidata eta wikidata.reconci.link (en) Itzuli
Historia
Jasotako sariak

openrefine.org
Twitter: OpenRefine Mastodon: OpenRefine@fosstodon.org GitHub: OpenRefine Edit the value on Wikidata
Iturri-kodeahttps://github.com/OpenRefine/OpenRefine

OpenRefine kode irekiko mahaigaineko aplikazio informatiko bat da, datuak garbitzeko eta beste formatu batzuetara eraldatzeko erabiltzen dena.[1] Kalkulu-orriak kudeatzeko aplikazioen antzekoa da, eta kalkulu-orriak lantzeko CSV moduko formatuak erabil ditzake, baina. berez, bere jokaera gahiago da datu-base baten gisako batena.

Datu-errenkadak tratatzen ditu egiten du, errenkada bakoitzak zutabe bakoitzean gelaxka bat dituela, datu-base erlazionalen taulek funtzionatzen duten antzera. OpenRefine proiektu bat taula bat da, eta haren errenkadak iragaz daitezke irizpide baten arabera (fazetak) (adibidez, zutabe jakin bat hutsik ez duten errenkadak bakarrik erakutsi).

Kalkulu-orrietan ez bezala, OpenRefineko eragiketa gehienak ageriko errenkada guztietan egiten dira, adibidez, zutabe bateko gelaxka guztiak (errenkada guztietakoak) eraldatzen dira, edo dauden datuetan oinarritutako zutabe berri bat sortzen da.[2] Datu-multzo batean egindako ekintzak proiektuan biltegiratzen dira, eta beste datu-multzo batzuetan "erreproduzi" daitezke. Formulak ez dira gelaxkatan biltegiratzen, datuak eraldatzeko transformazioetan baizik. Eraldaketa behin bakarrik egiten da, ez da etengabe eguneratzen.[3] Formula adierazpenak hiru formatutan Clojure-n idatz daitezke GREL lengoaiaz (General Refine Expression Language, Refine Adierazpenetarako Lengoaia Orokorra), Jython-en (i.e., Python), eta Clojure.[4]

Programak web aplikazio lokal baten moduan funtzionatzen du: web zerbitzari bat abiarazten du eta nabigatzaile lehenetsia irekitzen du 127.0.0.1:3333 helbiudean.

  • Datu desordenatuen garbiketa: adibidez, datu erdiegituratu batzuk dituen testu-fitxategi batekin lan egiten bada, eraldaketak, fazetak eta taldekatzeak erabiliz editatu daiteke, datuak modu garbian egituratzeko.[5]
  • Datuak eraldatzea: balioak beste formatu batzuetara bihurtzea, normalizazioa eta desnormalizazioa.
  • Webguneetako datuen analisia: OpenRefine-k URL bilaketa-funtzio bat, jsoup HTML parser bat eta DOM motorra ditu.[6]
  • Datu multzoarii datuak gehitzea web zerbitzutatik lortuta (i.e. JSON).[7] Adibidez, posta arrunteko helbideak koordenatu geografikoetara geokodifikatzeko erabil daiteke.[8]
  • Wikidatarekin lerrokatzea (lehen Freebase[9]): adiskidetzea (reconciliation) dakar horrek, hau da, gelaxka batean dagoen karaktere-kate balio bat emanda (hitz bat edo entitate baten izena) horri Wikidatako dagokion entitatea lortzea.[10]

Formatu bateragarriak

[aldatu | aldatu iturburu kodea]

Datuen inportazioak ondoko formatuak onartzen ditu:[11]

  • TSV, CSV
  • testu-fitxategia, balioak banatzaile pertsonalizatuekin bereiztuta edo zabalera finkoaz zatitutako zutabeak dituena
  • XMLa
  • RDF hirukoteak (RDF/XML eta Notation3 serializazio-formatua)
  • JSON
  • Google kalkulu-orriak[12]

Sarrerako datuak testu formatu ez-estandar batean badaude, lerro osoak bezala inporta daitezke, zutabetan banatu gabe, eta gero zutabeak beranduago ateratzen dira OpenRefine-tresnekin. Artxibatutako eta konprimitutako fitxategiak bateragarriak dira (.zip, .tar.gz, .tgz, .tar.bz2, .gz, edo .bz2) , eta Refinek URL batetik ere deskarga ditzake sarrera-fitxategiak. Web orriak sarrera gisa erabiltzeko, URL zerrenda bat inporta daiteke eta gero URL enbrage funtzio bat inbokatu.

Datuen esportazioak formatu hauek eman ditzake:[13]

  • TSV
  • CSV
  • Microsoft Excel
  • HTML taula
  • Google kalkulu-orriak
  • Txantiloi esportatzailea: datuak esportatzeko txantiloi pertsonalizatu bat defini daiteke, esaterako, MediaWiki taula.

OpenRefine proiektu oso bat jatorrizko formatuan esporta daiteke .tar.gz fitxategi gisa.

Freebase Gridworks gisa hasi zen OpenRefine bere bizitza, Metaweb-ek garatua eta 2010eko urtarriletik iturri ireki bezala eskuragarri egon zena.[14] 2010eko uztailaren 16an, Googlek Metaweb erosi zuen, Freebase-ren sortzaileak, eta 2010eko azaroaren 10ean Freebase Gridwords Google Refine izena aldatu zuen, 2.0 bertsioa askatuz.[15][16] 2012ko urriaren 2an, David Huynh jatorrizko egileak iragarri zuen Googlek laster geldiaraziko zuela Google Refineren aldeko laguntza aktiboa.[17][18] Harrezkero, kode oinarria OpenRefine izeneko kode irekiko proiektu baterako trantsizioan egon da.

Erreferentziak

[aldatu | aldatu iturburu kodea]

Kanpo estekak

[aldatu | aldatu iturburu kodea]