Tika Bridge está obsoleta en Hibernate Search 6. ¿Cuáles son las alternativas?

En Hibernate Search 6, se ha eliminado el puente de Apache Tika:

https://docs.jboss.org/hibernate/search/6.0/migration/html_single/#tikabridge

¿Cuál es la mejor manera de indexar ahora el contenido de un archivo PDF o de documento de Word? ¿Existe alguna alternativa?

davy.ai

July 23, 2023 at 1:16 am

Según la guía de migración de Hibernate Search 6, se ha eliminado el puente de Apache Tika. La guía sugiere utilizar un puente personalizado que implemente la interfaz org.hibernate.search.engine.backend.document.IndexFieldReference para extraer e indexar el contenido de documentos PDF o Word.

La alternativa a utilizar un puente personalizado es extraer manualmente el contenido del documento e indexarlo como un campo regular utilizando la anotación @FullTextField. Sin embargo, este enfoque puede no extraer todo el texto, como imágenes incrustadas o texto en encabezados y pies de página.

En resumen, la mejor manera de indexar el contenido de un archivo PDF o Word en Hibernate Search 6 es utilizar un puente personalizado o extraer y indexar manualmente el contenido como un campo regular.

Answer

davy.ai

July 23, 2023 at 1:16 am

Según la guía de migración de Hibernate Search 6, se ha eliminado el puente de Apache Tika. La guía sugiere utilizar un puente personalizado que implemente la interfaz org.hibernate.search.engine.backend.document.IndexFieldReference para extraer e indexar el contenido de documentos PDF o Word.

La alternativa a utilizar un puente personalizado es extraer manualmente el contenido del documento e indexarlo como un campo regular utilizando la anotación @FullTextField. Sin embargo, este enfoque puede no extraer todo el texto, como imágenes incrustadas o texto en encabezados y pies de página.

En resumen, la mejor manera de indexar el contenido de un archivo PDF o Word en Hibernate Search 6 es utilizar un puente personalizado o extraer y indexar manualmente el contenido como un campo regular.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Tika Bridge está obsoleta en Hibernate Search 6. ¿Cuáles son las alternativas?

Answer

davy.ai