Tag: TABULA-PY
Para mi aplicación estoy utilizando el paquete tabula para convertir un PDF a CSV. La función en la nube que he escrito está en Python 3.7. Lo he escrito en el archivo requirements.txt. Pero estoy obteniendo este error: Archivo “/layers/google.python.pip/pip/lib/python3.7/site-packages/tabula/io.py”, línea 91, en _run raise JavaNotFoundError(JAVA_NOT_FOUND_ERROR) tabula.errors.JavaNotFoundError: No se encuentra . . . Read more
Quiero convertir un archivo PDF a CSV. Para esto estoy usando Tabula-py. Sin embargo, el CSV de salida contiene los nombres de las columnas en lugar de su contenido. Por favor, guíame y dime qué me falta y cómo puedo guardar el marco de datos en un archivo CSV para . . . Read more
No puedo extraer detalles de MCC del PDF. Soy capaz de extraer otros datos con mi código. import tabula.io as tb from tabula.io import read_pdf pdf_path = “IR21_SVNMT_Telekom Slovenije d.d._20210506142456.pdf” for df in df_list: if ‘MSRN Number Range(s)’ in df.columns: df = df.drop(df.index[0]) df.columns = df.columns.str.replace(‘\r’, ”) df.columns = df.columns.str.replace(‘ . . . Read more
Quiero saber cómo extraer una columna de una tabla específica de un archivo PDF en Python. Mi código hasta ahora: import tabula.io as tb from tabula.io import read_pdf dfs = tb.read_pdf(pdf_path, pages=’all’) print(len(dfs)) # Esto muestra 73 Puedo acceder a la columna de una tabla individual haciendo print(dfs[2][‘ID de sección’]). . . . Read more
Intenté extraer tablas de PDF que no están en el formato adecuado según creo. Las tablas en estos PDF tienen formato de tabla pero no están cerradas correctamente con bordes verticales. Adjuntaré el pdf de muestra y la salida con ambas bibliotecas. Cuando intenté utilizar tabula para la detección de . . . Read more