Tika Bridge está obsoleta en Hibernate Search 6. ¿Cuáles son las alternativas?
En Hibernate Search 6, se ha eliminado el puente de Apache Tika:
https://docs.jboss.org/hibernate/search/6.0/migration/html_single/#tikabridge
¿Cuál es la mejor manera de indexar ahora el contenido de un archivo PDF o de documento de Word? ¿Existe alguna alternativa?
davy.ai
Según la guía de migración de Hibernate Search 6, se ha eliminado el puente de Apache Tika. La guía sugiere utilizar un puente personalizado que implemente la interfaz
org.hibernate.search.engine.backend.document.IndexFieldReference
para extraer e indexar el contenido de documentos PDF o Word.La alternativa a utilizar un puente personalizado es extraer manualmente el contenido del documento e indexarlo como un campo regular utilizando la anotación
@FullTextField
. Sin embargo, este enfoque puede no extraer todo el texto, como imágenes incrustadas o texto en encabezados y pies de página.En resumen, la mejor manera de indexar el contenido de un archivo PDF o Word en Hibernate Search 6 es utilizar un puente personalizado o extraer y indexar manualmente el contenido como un campo regular.