es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

BaseX para los archivos de Wikipedia: problema de procesamiento seguro de características.

Intento usar BaseX (basex.org, sin foro, ayuda paga para casos de uso comercial, no se encuentra el término de búsqueda anterior en el archivo de ayuda) para crear una base de datos sin conexión para un volcado de texto de Wikipedia (.xml con unos 20 GB, número desconocido de “páginas”).

Una vez creada una nueva base de datos en BaseX, el programa importa muy rápidamente muchas “entidades”, cada una de las cuales podría ser una de las múltiples etiquetas, como , y así sucesivamente, para un número mucho menor de páginas.

Después de la importación de 50 millones de “entidades”, invariablemente recibo el mensaje de error “D:/dewiki.xml” (Línea 99057203): JAXP00010004: El tamaño acumulado de las entidades es “50,000,001” que excedió el límite de “50,000,000” establecido por “FEATURESECUREPROCESSING”, y parece que la base de datos queda vacía, es decir, parece que ni siquiera se han importado las páginas procesadas hasta ese momento.

He buscado manualmente en muchos de los archivos genéricos de mantenimiento de la base de datos, etc. que vienen con BaseX, el término “featuresecureprocessing”, pero no he encontrado esa cadena en esos múltiples archivos, y no hay ninguna configuración al respecto en las “Opciones” de BaseX.

Entiendo que esta cadena suele utilizarse en XML u otros entornos, para prevenir ataques web desde el exterior, pero es obvio que en mi caso no necesito tal “protección”, sino que necesito importar todo el archivo de volcado XML de Wikipedia, para que BaseX cree la base de datos, junto con los índices y todo.

Por ejemplo, en el mucho más común “WikiTaxi”, la búsqueda de contenido no es posible excepto para la página actual, y ni siquiera permite seleccionar y copiar desde el contenido de la página, obviamente tratando de evitar que los niños copien y peguen en sus tareas; por lo tanto, una vez resuelto el problema del límite, BaseX (no: XBase) parece ser una solución mucho mejor para acceder a los volcados de Wikipedia.

¿Cómo podría resolver mi problema en BaseX?

Soy consciente de https://stackoverflow.com/questions/42991043/error-xml-sax-saxparseexception-while-parsing-a-xml-file-using-wikixmlj y de lo que se ha sugerido para Java allí, pero no conozco Java ni ningún otro lenguaje de programación, por lo que esa respuesta no me ayuda.

¡Muchas gracias!

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Mensaje de error al usar BaseX para crear una base de datos sin conexión para la extracción de texto de Wikipedia

    Como experto en TI especializado en análisis de XML y BaseX, el usuario está intentando crear una base de datos sin conexión utilizando BaseX para una extracción de texto de Wikipedia de aproximadamente 20 GB. Al importar el archivo, BaseX importa rápidamente muchas “entidades”, cada una de las cuales es una etiqueta como

Comments are closed.