OpenRefine
OpenRefine | |
---|---|
Jatorria | |
Azken bertsioa | 3.8.7 |
Ezaugarriak | |
Hizkuntza | ingelesa, italiera, txinera, japoniera eta frantsesa |
Programazio-lengoaia | Java eta JavaScript |
Irakur dezake | tab-separated values (en) , CSV, Office Open XML Spreadsheet Document, ECMA-376 1st Edition (en) , RDF/XML (en) , MARC standards (en) , JavaScript Object Notation eta Notation3 (en) |
Sistema eragilea | Microsoft Windows, MacOS X eta Linux |
Egile-eskubideak | copyrightduna |
Lizentzia | BSD lizentziak |
Ekoizpena | |
Garatzailea | Google, Metaweb eta Antonin Delpeuch |
Fikzioa | |
Erabiltzen du | Wikidata eta wikidata.reconci.link (en) |
Historia | |
Jasotako sariak | |
openrefine.org | |
Iturri-kodea | https://github.com/OpenRefine/OpenRefine |
OpenRefine kode irekiko mahaigaineko aplikazio informatiko bat da, datuak garbitzeko eta beste formatu batzuetara eraldatzeko erabiltzen dena.[1] Kalkulu-orriak kudeatzeko aplikazioen antzekoa da, eta kalkulu-orriak lantzeko CSV moduko formatuak erabil ditzake, baina. berez, bere jokaera gahiago da datu-base baten gisako batena.
Datu-errenkadak tratatzen ditu egiten du, errenkada bakoitzak zutabe bakoitzean gelaxka bat dituela, datu-base erlazionalen taulek funtzionatzen duten antzera. OpenRefine proiektu bat taula bat da, eta haren errenkadak iragaz daitezke irizpide baten arabera (fazetak) (adibidez, zutabe jakin bat hutsik ez duten errenkadak bakarrik erakutsi).
Kalkulu-orrietan ez bezala, OpenRefineko eragiketa gehienak ageriko errenkada guztietan egiten dira, adibidez, zutabe bateko gelaxka guztiak (errenkada guztietakoak) eraldatzen dira, edo dauden datuetan oinarritutako zutabe berri bat sortzen da.[2] Datu-multzo batean egindako ekintzak proiektuan biltegiratzen dira, eta beste datu-multzo batzuetan "erreproduzi" daitezke. Formulak ez dira gelaxkatan biltegiratzen, datuak eraldatzeko transformazioetan baizik. Eraldaketa behin bakarrik egiten da, ez da etengabe eguneratzen.[3] Formula adierazpenak hiru formatutan Clojure-n idatz daitezke GREL lengoaiaz (General Refine Expression Language, Refine Adierazpenetarako Lengoaia Orokorra), Jython-en (i.e., Python), eta Clojure.[4]
Programak web aplikazio lokal baten moduan funtzionatzen du: web zerbitzari bat abiarazten du eta nabigatzaile lehenetsia irekitzen du 127.0.0.1:3333 helbiudean.
Erabilerak
[aldatu | aldatu iturburu kodea]- Datu desordenatuen garbiketa: adibidez, datu erdiegituratu batzuk dituen testu-fitxategi batekin lan egiten bada, eraldaketak, fazetak eta taldekatzeak erabiliz editatu daiteke, datuak modu garbian egituratzeko.[5]
- Datuak eraldatzea: balioak beste formatu batzuetara bihurtzea, normalizazioa eta desnormalizazioa.
- Webguneetako datuen analisia: OpenRefine-k URL bilaketa-funtzio bat, jsoup HTML parser bat eta DOM motorra ditu.[6]
- Datu multzoarii datuak gehitzea web zerbitzutatik lortuta (i.e. JSON).[7] Adibidez, posta arrunteko helbideak koordenatu geografikoetara geokodifikatzeko erabil daiteke.[8]
- Wikidatarekin lerrokatzea (lehen Freebase[9]): adiskidetzea (reconciliation) dakar horrek, hau da, gelaxka batean dagoen karaktere-kate balio bat emanda (hitz bat edo entitate baten izena) horri Wikidatako dagokion entitatea lortzea.[10]
Formatu bateragarriak
[aldatu | aldatu iturburu kodea]Datuen inportazioak ondoko formatuak onartzen ditu:[11]
- TSV, CSV
- testu-fitxategia, balioak banatzaile pertsonalizatuekin bereiztuta edo zabalera finkoaz zatitutako zutabeak dituena
- XMLa
- RDF hirukoteak (RDF/XML eta Notation3 serializazio-formatua)
- JSON
- Google kalkulu-orriak[12]
Sarrerako datuak testu formatu ez-estandar batean badaude, lerro osoak bezala inporta daitezke, zutabetan banatu gabe, eta gero zutabeak beranduago ateratzen dira OpenRefine-tresnekin. Artxibatutako eta konprimitutako fitxategiak bateragarriak dira (.zip, .tar.gz, .tgz, .tar.bz2, .gz, edo .bz2) , eta Refinek URL batetik ere deskarga ditzake sarrera-fitxategiak. Web orriak sarrera gisa erabiltzeko, URL zerrenda bat inporta daiteke eta gero URL enbrage funtzio bat inbokatu.
Datuen esportazioak formatu hauek eman ditzake:[13]
- TSV
- CSV
- Microsoft Excel
- HTML taula
- Google kalkulu-orriak
- Txantiloi esportatzailea: datuak esportatzeko txantiloi pertsonalizatu bat defini daiteke, esaterako, MediaWiki taula.
OpenRefine proiektu oso bat jatorrizko formatuan esporta daiteke .tar.gz fitxategi gisa.
Garapena
[aldatu | aldatu iturburu kodea]Freebase Gridworks gisa hasi zen OpenRefine bere bizitza, Metaweb-ek garatua eta 2010eko urtarriletik iturri ireki bezala eskuragarri egon zena.[14] 2010eko uztailaren 16an, Googlek Metaweb erosi zuen, Freebase-ren sortzaileak, eta 2010eko azaroaren 10ean Freebase Gridwords Google Refine izena aldatu zuen, 2.0 bertsioa askatuz.[15][16] 2012ko urriaren 2an, David Huynh jatorrizko egileak iragarri zuen Googlek laster geldiaraziko zuela Google Refineren aldeko laguntza aktiboa.[17][18] Harrezkero, kode oinarria OpenRefine izeneko kode irekiko proiektu baterako trantsizioan egon da.
Erreferentziak
[aldatu | aldatu iturburu kodea]- ↑ «openrefine.github.com» openrefine.org.
- ↑ Editing by transforming: Cell Editing wiki page from Refine documentation. .
- ↑ Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation. .
- ↑ Expressions: Refine documentation. .
- ↑ «Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data» YouTube 19 July 2011.
- ↑ Stripping HTML: Refine documentation wiki page. .
- ↑ FetchingURLsFromWebServices wiki page: Refine documentation. .
- ↑ «Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation» YouTube 19 July 2011.
- ↑ Schema Alignment: Refine documentation wiki page. .
- ↑ «OpenRefine documentation: Reconciliation» GitHub.
- ↑ Importers: Refine documentation wiki page. .
- ↑ Changelog for 2.5. .
- ↑ Exporting: Refine documentation wiki page. .
- ↑ «Google Code Archive - Long-term storage for Google Code Project Hosting.» code.google.com.
- ↑ Google Official Blog: Deeper understanding with Metaweb. .
- ↑ Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers. .
- ↑ «Google Groups» groups.google.com.
- ↑ From Freebase Gridworks to Google Refine and now OpenRefine. .