No es posible extraer los detalles del MCC del archivo PDF.

11 Jul, 2023 Programación 0

No puedo extraer detalles de MCC del PDF. Soy capaz de extraer otros datos con mi código.

import tabula.io as tb
from tabula.io import read_pdf
pdf_path = "IR21_SVNMT_Telekom Slovenije d.d._20210506142456.pdf"
for df in df_list:
    if 'MSRN Number Range(s)' in df.columns:
         df = df.drop(df.index[0])
         df.columns = df.columns.str.replace('\r', '')
         df.columns = df.columns.str.replace(' ', '')
         df.columns = df.columns.str.replace('Unnamed:0', 'CountryCode(CC)')
         df.columns = df.columns.str.replace('Unnamed:1', 'NationalDestinationCode(NDC)')
         df.columns = df.columns.str.replace('Unnamed:2', 'SNRangeStart')
         df.columns = df.columns.str.replace('Unnamed:3', 'SNRangeStop')
         break
msrn_table = df[['CountryCode(CC)','NationalDestinationCode(NDC)','SNRangeStart','SNRangeStop']]
print (msrn_table)

Estoy tratando de obtener los detalles de “Mobile Country Code (MCC)” de la misma manera. Pero el marco de datos de Pandas muestra datos diferentes en lugar de los que están en el PDF.

for df in df_list:
    if 'Mobile Country Code (MCC)' in df.columns:
        break
print (df)

La salida de Pandas se presenta así:
Imagen de salida de pandas

El contenido real del archivo PDF es:
Imagen del PDF real

Answer

davy.ai

July 11, 2023 at 10:36 pm

Es difícil determinar el problema exacto sin ver el archivo PDF real y el marco de datos de salida. Sin embargo, es posible que el problema esté relacionado con la forma en que se lee y analiza el archivo PDF mediante tabula-py.

Una solución potencial podría ser especificar la ubicación exacta de la tabla “Código de País Móvil (MCC)” dentro del archivo PDF utilizando el parámetro “area” en la función tabula.read_pdf(). Esto puede ayudar a asegurar que solo se extraiga y analice la tabla relevante.

Otra posible solución podría ser probar una biblioteca o enfoque diferente para extraer datos del archivo PDF, como el uso de PyPDF2 o pdfminer. Estas bibliotecas pueden tener características o métodos más adecuados para manipular el formato o la estructura específica del archivo PDF.

En general, solucionar problemas con la extracción de PDF puede ser complicado y puede requerir algo de experimentación y prueba y error para encontrar el enfoque más adecuado.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

No es posible extraer los detalles del MCC del archivo PDF.

Answer

davy.ai