PDF-SCRAPING - es.davy.ai

Cómo extraer datos de un archivo PDF desordenado sin formato estándar.

20 Jul, 2023 Programación 0

Estoy trabajando en este archivo PDF para extraer los datos tabulares de él. Esperaba poder usar tabula o PyPDF2 para extraer las tablas, pero los datos en el PDF no están almacenados en tablas. Por lo tanto, elegí pdfplumber para extraer el texto. Hasta ahora, puedo leer el texto línea . . . Read more

Regex de URL que detecta enlaces que continúan en la segunda línea.

14 Jul, 2023 Programación 0

Estoy utilizando Python para extraer enlaces de archivos PDF. Tengo una expresión regular que funciona en su mayor parte. URL_REGEX = r”””(?i)\b (?i)\b((?:https?:(?:/{1,3}|[a-z0-9%])|[a-z0-9.\-]+[.](?:com|net|org|edu| (?:gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel| [a-z][\w-]+:// travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd| (?:\S+(?::\S*)?@)? be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl| (?:cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu| (?:fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy| [1-9]\d?|1\d\d|2[01]\d|22[0-3] hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km| |25[0-5]|[1-9]\d|\d kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml| )\.(?:mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu| [1-9]\d?|1\d\d|2[0-4]\d|25[0-5] nz|om|pa|pe|pf|pg|ph| |[1-9]\d|\d pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|sk| )\.(?:sl|sm|sn|so|sr|ss|st|su|sv|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt| [1-9]\d?|1\d\d|2[0-4]\d|25[0-5] tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vn|vu|wf|ws|ye|yt|za|zm|zw)/ |[1-9]\d|\d [^\s()<>{}\[\]]+[^\s`!()\[\]{};:'”,.<>?“”‘’]))””” Pero si una URL continúa en . . . Read more

es.davy.ai

¿Tienes una pregunta?

Tag: PDF-SCRAPING

Cómo extraer datos de un archivo PDF desordenado sin formato estándar.

Regex de URL que detecta enlaces que continúan en la segunda línea.