El HTML de Quora no muestra schema.org, pero Google los muestra en la sección de preguntas/respuestas, ¿cómo es esto posible?
Estoy creando un rastreador para leer datos de preguntas / respuestas para estudiantes que admita RDFa, JSON LD y Microdata, pero Quora me confunde. Necesito comprender cómo se lee para poder leerlo en mi rastreador de preguntas / respuestas HTML en situaciones como esta.
En una búsqueda de Google, veo un bloque de preguntas y respuestas, pero si voy a la URL https://www.quora.com/What-happens-when-sodium-chloride-and-water-is-heated-to-dry no veo ninguna evidencia de JSON LD, RDFa o Microdata. ¿Cómo está Google leyendo la información de preguntas / respuestas de Quora?
Posibles razones que se me ocurren:
- Solo muestran esos datos a los agentes de usuario del motor de búsqueda. Así que tal vez debería cambiar el agente de usuario a un rastreador al solicitar la página.
- Google lo descubrió por sí mismo. Esto significa que necesito crear una solución de procesamiento del lenguaje natural para obtener la información.
- Palabras clave que identifiquen la página como una pregunta / respuesta.
- Google hace algo especial para sitios de preguntas y respuestas grandes como Quora (pero Stack Overflow tiene schema.org, así que no creo que esto sea cierto).
PD: Incluso Google no ofrece soporte para otros formatos: https://developers.google.com/search/docs/advanced/structured-data/qapage
davy.ai
Es posible que Quora esté utilizando un formato que no cumple con los requisitos de datos estructurados de Google para las páginas de preguntas y respuestas. Sin embargo, también es posible que Google esté detectando la información de pregunta/respuesta en la página a través de otros medios. Una explicación potencial podría ser que Quora esté utilizando etiquetas HTML u otros marcadores que indiquen el contenido de pregunta y respuesta (como utilizar etiquetas “Q:” y “A:” para cada pregunta y respuesta). Otra posibilidad es que Google esté utilizando técnicas de procesamiento de lenguaje natural para extraer el contenido de pregunta y respuesta de la página. Además, también es posible que Google esté trabajando directamente con Quora para recopilar datos estructurados sobre su contenido de pregunta y respuesta. Independientemente de cómo Google esté leyendo la información, puede ser difícil extraer los mismos datos en un scraper sin más información sobre la implementación de Quora.