Promedio de datos CSV

davy.ai

August 1, 2023 at 2:56 pm

Parece que hay algunas cosas que deben ajustarse en el código proporcionado para procesar correctamente el archivo de datos en un formato por hora:

El archivo de datos no parece estar en formato CSV, ya que las columnas están separadas por comas en lugar de utilizar un delimitador. Por lo tanto, puede ser necesario ajustar el código para leer el archivo utilizando un método de análisis diferente, como read_fwf() o read_table().
El primer carácter de cada línea del archivo de datos no es válido para un archivo CSV y puede causar problemas al leer los datos. Estos caracteres deben eliminarse del archivo antes de intentar leerlo.
El formato especificado en la función pd.to_datetime() no coincide con el formato de la marca de tiempo en el archivo de datos. En lugar de format=r'%Y/%m/%d %H:%M', el formato debería ser format='$%Y-%m-%d %H:%M:%S' para que coincida con el formato de marca de tiempo en el archivo de datos.
La función readFile en realidad no se está llamando, ya que le faltan los paréntesis al final. Debe ser readFile() en su lugar.

Aquí hay una versión modificada del código que debería procesar correctamente el archivo de datos en un formato por hora:

import pandas as pd
from pandas.io.parsers import read_fwf

dataFile = 'ruta/al/archivo_de_datos.txt'

# eliminar caracteres no válidos del archivo de datos y leerlo utilizando el analizador fwf
with open(dataFile, 'r') as f:
    data = f.read().replace('$', '')
with open('temp.txt', 'w') as f:
    f.write(data)
df = read_fwf('temp.txt', header=None, names=['Marca de tiempo', 'Col1', 'Col2', 'Col3', 'Col4', 'Col5', 'Col6', 'Col7', 'Col8', 'Col9', 'Col10', 'Col11', 'Col12', 'Col13', 'Col14'], colspecs=[(0, 23), (24, 31), (32, 39), (40, 50), (51, 59), (60, 71), (72, 83), (84, 88), (89, 94), (95, 100), (101, 109), (110, 118), (119, 125), (126, 134), (135, 143)])

def readFile():
    df['TS'] = pd.to_datetime(df['Marca de tiempo'], format='$%Y-%m-%d %H:%M:%S')
    df.index = df['TS']
    df1 = df.resample('H').mean()
    print(df1)

readFile()

Este código lee el archivo de datos utilizando el analizador read_fwf() y especifica el ancho de las columnas utilizando el parámetro colspecs. Luego elimina los caracteres no válidos de la columna Marca de tiempo y la convierte a formato de fecha y hora utilizando $%Y-%m-%d %H:%M:%S como cadena de formato. Se utiliza el método resample() para agregar los datos en intervalos por hora y calcular la media de cada columna. Por último, se llama a la función utilizando readFile() para imprimir el DataFrame resultante.

Answer

davy.ai

August 1, 2023 at 2:56 pm
Parece que hay algunas cosas que deben ajustarse en el código proporcionado para procesar correctamente el archivo de datos en un formato por hora:
1. El archivo de datos no parece estar en formato CSV, ya que las columnas están separadas por comas en lugar de utilizar un delimitador. Por lo tanto, puede ser necesario ajustar el código para leer el archivo utilizando un método de análisis diferente, como read_fwf() o read_table().
2. El primer carácter de cada línea del archivo de datos no es válido para un archivo CSV y puede causar problemas al leer los datos. Estos caracteres deben eliminarse del archivo antes de intentar leerlo.
3. El formato especificado en la función pd.to_datetime() no coincide con el formato de la marca de tiempo en el archivo de datos. En lugar de format=r'%Y/%m/%d %H:%M', el formato debería ser format='$%Y-%m-%d %H:%M:%S' para que coincida con el formato de marca de tiempo en el archivo de datos.
4. La función readFile en realidad no se está llamando, ya que le faltan los paréntesis al final. Debe ser readFile() en su lugar.
Aquí hay una versión modificada del código que debería procesar correctamente el archivo de datos en un formato por hora:
```
import pandas as pd
from pandas.io.parsers import read_fwf

dataFile = 'ruta/al/archivo_de_datos.txt'

# eliminar caracteres no válidos del archivo de datos y leerlo utilizando el analizador fwf
with open(dataFile, 'r') as f:
    data = f.read().replace('$', '')
with open('temp.txt', 'w') as f:
    f.write(data)
df = read_fwf('temp.txt', header=None, names=['Marca de tiempo', 'Col1', 'Col2', 'Col3', 'Col4', 'Col5', 'Col6', 'Col7', 'Col8', 'Col9', 'Col10', 'Col11', 'Col12', 'Col13', 'Col14'], colspecs=[(0, 23), (24, 31), (32, 39), (40, 50), (51, 59), (60, 71), (72, 83), (84, 88), (89, 94), (95, 100), (101, 109), (110, 118), (119, 125), (126, 134), (135, 143)])

def readFile():
    df['TS'] = pd.to_datetime(df['Marca de tiempo'], format='$%Y-%m-%d %H:%M:%S')
    df.index = df['TS']
    df1 = df.resample('H').mean()
    print(df1)

readFile()
```
Este código lee el archivo de datos utilizando el analizador read_fwf() y especifica el ancho de las columnas utilizando el parámetro colspecs. Luego elimina los caracteres no válidos de la columna Marca de tiempo y la convierte a formato de fecha y hora utilizando $%Y-%m-%d %H:%M:%S como cadena de formato. Se utiliza el método resample() para agregar los datos en intervalos por hora y calcular la media de cada columna. Por último, se llama a la función utilizando readFile() para imprimir el DataFrame resultante.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Promedio de datos CSV

Answer

davy.ai