Curs R per a Ajuntament de Barcelona (inicialment)
Hola:
Estem començant a dissenyar els apunts d'un curs d'R per a persones companyes treballadores de l'Ajuntament de Barcelona.
La meva idea és que el codi font (R, Rmd, etc) sigui lliure (amb llicència MIT, per exemple), i els apunts tinguin cc-by-sa.
Arxius sota control deversions al gitlab de l'ADUP:
https://gitlab.com/radup/curs-r-introduccio
Estructura inicial la tenim a un Wiki a la intranet de la OMD, després d'una feina inicial de definir objectius i esuqema/metodologia bàsica a l'OMD (espero poder deixar-la visible al gitlab en propers dies).
Però per anar obrint boca, poder mirar els resultats d'unes comparatives de velocitat de lectura i escriptura d'arxius en disc (en funció de si és SSD o IDE, i en funció del paquet emprat i si es deixa comprimit - ja sigui binari o text amb gz - o no):
https://gitlab.com/radup/curs-r-introduccio/blob/master/comparativa_lectura_escriptura.Rmd
Exemples:
Tipus de Disc | lectura | escriptura
|
SSD | ||
IDE |
Resum executiu:
- llegir i escriure csv amb
data.table
(tot i que just després es passin a data frame per continuar amb l'universetidyverse
del Hadley Wickam) - molts paquets permeten llegir directament gz sense descomprimir abans.
- per desar dataframes grans (totxos, 100Mb +, per exemple) en algun format de forma ràpida, i poder llegir-los després de forma ràpida, ni que sigui només la capçalera o el final - en mode "head" o "tail", o l'arxiu sencer, i amb mides petites en disc SSD o IDE, el guanyador sense rival és el paquet
fst
( https://www.fstpackage.org/ ), que per a mi era un gran desconegut fins el cap de setmana passat, però ja el tinc ben present des de llavors en tots els meus projectes ara
To be continued