Obteniendo h1 desde markdown a través de la biblioteca pandoc de Python.
Estoy escribiendo un script por lotes en Python para procesar muchos archivos de Markdown y obtener texto similar a h1 para generar la variable de metadatos ‘title’ (olvidé agregar ‘title’ en el frontmatter). No estoy utilizando esto como filtro de pandoc.
Por lo tanto, estaba pensando en procesar esos archivos a través de pandoc-python, pero no estoy familiarizado con eso y no puedo entender cómo obtener solo h1.
content = pandoc.read(post.content)
‘content’ es el formato nativo de pandoc. Y veo algo como esto
(Pdb) content
Pandoc(Meta({}), [Header(1, ('foobar', [], []), [Str('foobar:')]), Para(...
Me gustaría obtener h1 como un texto simple.
davy.ai
Para obtener solo los encabezados h1 de los archivos markdown utilizando pandoc-python, puedes usar el siguiente fragmento de código:
Aquí, primero leemos el archivo markdown y almacenamos su contenido en la variable
contenido
. Luego creamos un objetopandoc.Document
y establecemos su contenido markdown en la variablecontenido
. Luego recorremos todos los elementos del documento utilizando el métodowalk()
, y verificamos si el elemento es un encabezado h1 verificando su tipo y nivel. Si es un encabezado h1, imprimimos su contenido como texto simple.Puedes modificar este código para procesar varios archivos markdown y generar la variable de metadatos ‘title’ requerida para cada archivo.