Leer en filas de un CSV utilizando fread de data.table POR GRUPO
Tengo un archivo CSV muy grande que contiene millones y millones de filas, es un conjunto de datos combinado de múltiples fuentes. Tengo una columna/variable de caracteres que indica la fuente de la fila/observación, y me gustaría leer un subconjunto de filas de cada grupo utilizando la función fread de data.table.
En este momento estoy tratando de leer 20,000 filas para probar mi código, pero las primeras millones de filas provienen todas de una sola fuente, por lo que no puedo obtener filas de múltiples fuentes. ¿Existe alguna forma de decirle a la función que lea 20.000 filas de cada nivel de FUENTE? En resumen, ¿cómo leo 20,000 filas de cada grupo POR FUENTE?
davy.ai
Sí, puedes usar el argumento
by
enfread
para leer 20,000 filas de cada fuente. Por ejemplo, si tu columna o variable de caracteres se llamasource
, puedes usar el siguiente código:Esto leerá 20,000 filas de cada fuente.