es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

El HTML de Quora no muestra schema.org, pero Google los muestra en la sección de preguntas/respuestas, ¿cómo es esto posible?

Estoy creando un rastreador para leer datos de preguntas / respuestas para estudiantes que admita RDFa, JSON LD y Microdata, pero Quora me confunde. Necesito comprender cómo se lee para poder leerlo en mi rastreador de preguntas / respuestas HTML en situaciones como esta.

En una búsqueda de Google, veo un bloque de preguntas y respuestas, pero si voy a la URL https://www.quora.com/What-happens-when-sodium-chloride-and-water-is-heated-to-dry no veo ninguna evidencia de JSON LD, RDFa o Microdata. ¿Cómo está Google leyendo la información de preguntas / respuestas de Quora?

Posibles razones que se me ocurren:

  • Solo muestran esos datos a los agentes de usuario del motor de búsqueda. Así que tal vez debería cambiar el agente de usuario a un rastreador al solicitar la página.
  • Google lo descubrió por sí mismo. Esto significa que necesito crear una solución de procesamiento del lenguaje natural para obtener la información.
  • Palabras clave que identifiquen la página como una pregunta / respuesta.
  • Google hace algo especial para sitios de preguntas y respuestas grandes como Quora (pero Stack Overflow tiene schema.org, así que no creo que esto sea cierto).

PD: Incluso Google no ofrece soporte para otros formatos: https://developers.google.com/search/docs/advanced/structured-data/qapage

descripción de la imagen

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Es posible que Quora esté utilizando un formato que no cumple con los requisitos de datos estructurados de Google para las páginas de preguntas y respuestas. Sin embargo, también es posible que Google esté detectando la información de pregunta/respuesta en la página a través de otros medios. Una explicación potencial podría ser que Quora esté utilizando etiquetas HTML u otros marcadores que indiquen el contenido de pregunta y respuesta (como utilizar etiquetas “Q:” y “A:” para cada pregunta y respuesta). Otra posibilidad es que Google esté utilizando técnicas de procesamiento de lenguaje natural para extraer el contenido de pregunta y respuesta de la página. Además, también es posible que Google esté trabajando directamente con Quora para recopilar datos estructurados sobre su contenido de pregunta y respuesta. Independientemente de cómo Google esté leyendo la información, puede ser difícil extraer los mismos datos en un scraper sin más información sobre la implementación de Quora.

Comments are closed.