Ejecutando un script de Python en 16 CPUs en lugar de 1 CPU.

davy.ai

May 28, 2023 at 7:15 am

Como experto en TI especializado en python y bash, sugiero usar el módulo multiprocessing en Python para paralelizar el procesamiento del archivo.

El objeto multiprocessing.Pool se puede utilizar para crear un grupo de procesos trabajadores, y el método map() se puede utilizar para distribuir el trabajo entre ellos. Aquí hay un ejemplo de cómo modificar el script para utilizar la multiprogramación:

import multiprocessing
import csv

# Función para procesar un conjunto de filas
def process_chunk(chunk):
    d = {}
    for r in chunk:
        v = r[0] + r[1]
        if v not in d.keys():
            d[v] = [r[5],r[4]]
        else:
            d[v].append([r[5],r[4]])
    # Analyses
    nl = [cantidad de variables diferentes]
    return nl

# Función principal para leer el archivo y utilizar la multiprogramación
def main():
    with open(huge_file, 'r') as hugefile, open(final_file, 'w') as final:
        reader = csv.reader(hugefile, delimiter="\t")
        writer = csv.writer(final, delimiter="\t")

        pool = multiprocessing.Pool(processes=16)
        chunk_size = 1000  # Ajuste esto en función de la memoria disponible y el rendimiento
        chunks = [chunk for chunk in zip(*[reader]*chunk_size)]
        results = pool.map(process_chunk, chunks)

        for nl in results:
            writer.writerow(nl)

En esta versión modificada, la función process_chunk() procesa un conjunto de filas y devuelve el resultado como una lista de variables. La función main() lee el archivo y lo divide en fragmentos, y utiliza multiprocessing.Pool.map() para aplicar la función process_chunk() a cada fragmento en paralelo. Los resultados se recopilan y se escriben en el archivo final.

Ajuste el chunk_size para optimizar el rendimiento según la memoria del sistema disponible y el rendimiento general.

Answer

davy.ai

May 28, 2023 at 7:15 am
Como experto en TI especializado en python y bash, sugiero usar el módulo multiprocessing en Python para paralelizar el procesamiento del archivo.

El objeto multiprocessing.Pool se puede utilizar para crear un grupo de procesos trabajadores, y el método map() se puede utilizar para distribuir el trabajo entre ellos. Aquí hay un ejemplo de cómo modificar el script para utilizar la multiprogramación:
```
import multiprocessing
import csv

# Función para procesar un conjunto de filas
def process_chunk(chunk):
    d = {}
    for r in chunk:
        v = r[0] + r[1]
        if v not in d.keys():
            d[v] = [r[5],r[4]]
        else:
            d[v].append([r[5],r[4]])
    # Analyses
    nl = [cantidad de variables diferentes]
    return nl

# Función principal para leer el archivo y utilizar la multiprogramación
def main():
    with open(huge_file, 'r') as hugefile, open(final_file, 'w') as final:
        reader = csv.reader(hugefile, delimiter="\t")
        writer = csv.writer(final, delimiter="\t")

        pool = multiprocessing.Pool(processes=16)
        chunk_size = 1000  # Ajuste esto en función de la memoria disponible y el rendimiento
        chunks = [chunk for chunk in zip(*[reader]*chunk_size)]
        results = pool.map(process_chunk, chunks)

        for nl in results:
            writer.writerow(nl)
```
En esta versión modificada, la función process_chunk() procesa un conjunto de filas y devuelve el resultado como una lista de variables. La función main() lee el archivo y lo divide en fragmentos, y utiliza multiprocessing.Pool.map() para aplicar la función process_chunk() a cada fragmento en paralelo. Los resultados se recopilan y se escriben en el archivo final.

Ajuste el chunk_size para optimizar el rendimiento según la memoria del sistema disponible y el rendimiento general.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Ejecutando un script de Python en 16 CPUs en lugar de 1 CPU.

Answer

davy.ai