Ho riscontrato un problema interessante con il ridimensionamento utilizzando ggplot. Ho un set di dati che posso tracciare bene usando la scala lineare di default, ma quando uso scale_y_log10 () i numeri vanno via. Ecco alcuni esempi di codice e due immagini. Notare che il valore massimo nella scala lineare è ~ 700 mentre il […]
Ho bisogno di trovare il numero minimo di righe di molti (+60) data.frame relativamente grande (~ 250.000 x 3) (o posso lavorare in modo equivalente su una xts ). set.seed(1000) my.df <- sample(1:5, 250000*3, replace=TRUE) dim(my.df) <- c(250000,3) my.df <- as.data.frame(my.df) names(my.df) <- c("A", "B", "C") Il frame dei dati my.df è simile a questo […]
So che questa è una domanda di base, ma per qualche strana ragione non riesco a trovare una risposta. Come dovrei applicare le funzioni statistiche di base come media, mediana, ecc. Su tutto l’array, matrice o dataframe per ottenere risposte univoche e non un vettore su righe o colonne
Come posso leggere i big data formattati con larghezza fissa? Ho letto questa domanda e ho provato alcuni suggerimenti, ma tutte le risposte sono per dati delimitati (come .csv), e non è il mio caso. I dati hanno 558 MB e non so quante righe. Sto usando: dados <- read.fwf('TS_MATRICULA_RS.txt', width=c(5, 13, 14, 3, 3, […]
la mia domanda è duplice .. Ho una lista di dataframes, e usando lapply in R, vorrei aggiungere una colonna a ciascun dataframe nell’elenco. La colonna aggiunta dovrebbe in realtà assumere valori in sequenza da un elenco, se ansible. Ho una lista che ha la stessa lunghezza dell’elenco dei dataframes e ogni valore in quell’elenco […]
Ho notato che qui Box e baffi tramano la chiamata: p + geom_boxplot(aes(fill = factor(cyl))) genera colors rosso / verde / blu per il riempimento di riquadrati, mentre: p + geom_boxplot(aes(fill = factor(vs))) Genera un chiaro verde / rosso distinto di colors. Nei miei dati, ottengo il secondo set di colors, ma vorrei il primo […]
C’è qualche differenza tra il test isTRUE(all.equal(x, y)) e identical(x, y) ? La pagina di aiuto dice: Non utilizzare ‘all.equal’ direttamente nelle espressioni ‘if’, se si utilizza ‘isTRUE (all.equal (….))’ o ‘identico’ se appropriato. ma che “se appropriato” mi lascia in dubbio. Come posso decidere quale dei due è appropriato?
Ho già un dataframe, df, con un numero di colonne di dati. Ho un vettore, namevector, pieno di archi. Ho bisogno di colonne vuote aggiunte a df con i nomi delle colonne di namevector. Sto cercando di aggiungere colonne con questo ciclo for, iterando su ogni stringa in namevector. for (i in length(namevector)) { df[, […]
Sto cercando di ottenere l’elenco dei file che corrispondono a un modello a percorso completo . Finora, ho usato list.files () ma non ha funzionato. Supponiamo di avere la seguente organizzazione di directory: results |- A | |- data-1.csv | |- data-2.csv | |- B |- data-1.csv |- data-2.csv Quindi il seguente comando: list.files(pattern=’data-.*\\.csv’, recursive=TRUE) […]
Ho una matrice in R che dovrebbe essere simmetrica, tuttavia, a causa della precisione della macchina, la matrice non è mai simmetrica (i valori differiscono di circa 10 ^ -16). Poiché so che la matrice è simmetrica, ho fatto questo finora per aggirare il problema: s.diag = diag(s) s[lower.tri(s,diag=T)] = 0 s = s + […]