Articles of r

ggplot scale_y_log10 () problema

Ho riscontrato un problema interessante con il ridimensionamento utilizzando ggplot. Ho un set di dati che posso tracciare bene usando la scala lineare di default, ma quando uso scale_y_log10 () i numeri vanno via. Ecco alcuni esempi di codice e due immagini. Notare che il valore massimo nella scala lineare è ~ 700 mentre il […]

efficienti operazioni di riga su un data.table

Ho bisogno di trovare il numero minimo di righe di molti (+60) data.frame relativamente grande (~ 250.000 x 3) (o posso lavorare in modo equivalente su una xts ). set.seed(1000) my.df <- sample(1:5, 250000*3, replace=TRUE) dim(my.df) <- c(250000,3) my.df <- as.data.frame(my.df) names(my.df) <- c("A", "B", "C") Il frame dei dati my.df è simile a questo […]

Come ottenere media, mediana e altre statistiche sull’intera matrice, matrice o dataframe?

So che questa è una domanda di base, ma per qualche strana ragione non riesco a trovare una risposta. Come dovrei applicare le funzioni statistiche di base come media, mediana, ecc. Su tutto l’array, matrice o dataframe per ottenere risposte univoche e non un vettore su righe o colonne

Lettura di big data con larghezza fissa

Come posso leggere i big data formattati con larghezza fissa? Ho letto questa domanda e ho provato alcuni suggerimenti, ma tutte le risposte sono per dati delimitati (come .csv), e non è il mio caso. I dati hanno 558 MB e non so quante righe. Sto usando: dados <- read.fwf('TS_MATRICULA_RS.txt', width=c(5, 13, 14, 3, 3, […]

Riattaccare per aggiungere colonne a ciascun dataframe in un elenco

la mia domanda è duplice .. Ho una lista di dataframes, e usando lapply in R, vorrei aggiungere una colonna a ciascun dataframe nell’elenco. La colonna aggiunta dovrebbe in realtà assumere valori in sequenza da un elenco, se ansible. Ho una lista che ha la stessa lunghezza dell’elenco dei dataframes e ogni valore in quell’elenco […]

cambiare i colors dei fattori ggplot?

Ho notato che qui Box e baffi tramano la chiamata: p + geom_boxplot(aes(fill = factor(cyl))) genera colors rosso / verde / blu per il riempimento di riquadrati, mentre: p + geom_boxplot(aes(fill = factor(vs))) Genera un chiaro verde / rosso distinto di colors. Nei miei dati, ottengo il secondo set di colors, ma vorrei il primo […]

Qual è la differenza in R tra identico (x, y) e isTRUE (all.equal (x, y))?

C’è qualche differenza tra il test isTRUE(all.equal(x, y)) e identical(x, y) ? La pagina di aiuto dice: Non utilizzare ‘all.equal’ direttamente nelle espressioni ‘if’, se si utilizza ‘isTRUE (all.equal (….))’ o ‘identico’ se appropriato. ma che “se appropriato” mi lascia in dubbio. Come posso decidere quale dei due è appropriato?

Aggiungi colonne vuote a un dataframe con nomi specifici da un vettore

Ho già un dataframe, df, con un numero di colonne di dati. Ho un vettore, namevector, pieno di archi. Ho bisogno di colonne vuote aggiunte a df con i nomi delle colonne di namevector. Sto cercando di aggiungere colonne con questo ciclo for, iterando su ogni stringa in namevector. for (i in length(namevector)) { df[, […]

Elenco di tutti i file che corrispondono a un modello di percorso completo in R

Sto cercando di ottenere l’elenco dei file che corrispondono a un modello a percorso completo . Finora, ho usato list.files () ma non ha funzionato. Supponiamo di avere la seguente organizzazione di directory: results |- A | |- data-1.csv | |- data-2.csv | |- B |- data-1.csv |- data-2.csv Quindi il seguente comando: list.files(pattern=’data-.*\\.csv’, recursive=TRUE) […]

Creare una matrice simmetrica in R

Ho una matrice in R che dovrebbe essere simmetrica, tuttavia, a causa della precisione della macchina, la matrice non è mai simmetrica (i valori differiscono di circa 10 ^ -16). Poiché so che la matrice è simmetrica, ho fatto questo finora per aggirare il problema: s.diag = diag(s) s[lower.tri(s,diag=T)] = 0 s = s + […]