es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Leer en filas de un CSV utilizando fread de data.table POR GRUPO

Tengo un archivo CSV muy grande que contiene millones y millones de filas, es un conjunto de datos combinado de múltiples fuentes. Tengo una columna/variable de caracteres que indica la fuente de la fila/observación, y me gustaría leer un subconjunto de filas de cada grupo utilizando la función fread de data.table.

En este momento estoy tratando de leer 20,000 filas para probar mi código, pero las primeras millones de filas provienen todas de una sola fuente, por lo que no puedo obtener filas de múltiples fuentes. ¿Existe alguna forma de decirle a la función que lea 20.000 filas de cada nivel de FUENTE? En resumen, ¿cómo leo 20,000 filas de cada grupo POR FUENTE?

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Sí, puedes usar el argumento by en fread para leer 20,000 filas de cada fuente. Por ejemplo, si tu columna o variable de caracteres se llama source, puedes usar el siguiente código:

    fread(file, by = "source", nrows = 20000)
    

    Esto leerá 20,000 filas de cada fuente.

Comments are closed.