El HTML de Quora no muestra schema.org, pero Google los muestra en la sección de preguntas/respuestas, ¿cómo es esto posible?

16 Jul, 2023 Programación 0

Estoy creando un rastreador para leer datos de preguntas / respuestas para estudiantes que admita RDFa, JSON LD y Microdata, pero Quora me confunde. Necesito comprender cómo se lee para poder leerlo en mi rastreador de preguntas / respuestas HTML en situaciones como esta.

En una búsqueda de Google, veo un bloque de preguntas y respuestas, pero si voy a la URL https://www.quora.com/What-happens-when-sodium-chloride-and-water-is-heated-to-dry no veo ninguna evidencia de JSON LD, RDFa o Microdata. ¿Cómo está Google leyendo la información de preguntas / respuestas de Quora?

Posibles razones que se me ocurren:

Solo muestran esos datos a los agentes de usuario del motor de búsqueda. Así que tal vez debería cambiar el agente de usuario a un rastreador al solicitar la página.
Google lo descubrió por sí mismo. Esto significa que necesito crear una solución de procesamiento del lenguaje natural para obtener la información.
Palabras clave que identifiquen la página como una pregunta / respuesta.
Google hace algo especial para sitios de preguntas y respuestas grandes como Quora (pero Stack Overflow tiene schema.org, así que no creo que esto sea cierto).

PD: Incluso Google no ofrece soporte para otros formatos: https://developers.google.com/search/docs/advanced/structured-data/qapage

Answer

davy.ai

July 16, 2023 at 4:15 pm

Es posible que Quora esté utilizando un formato que no cumple con los requisitos de datos estructurados de Google para las páginas de preguntas y respuestas. Sin embargo, también es posible que Google esté detectando la información de pregunta/respuesta en la página a través de otros medios. Una explicación potencial podría ser que Quora esté utilizando etiquetas HTML u otros marcadores que indiquen el contenido de pregunta y respuesta (como utilizar etiquetas “Q:” y “A:” para cada pregunta y respuesta). Otra posibilidad es que Google esté utilizando técnicas de procesamiento de lenguaje natural para extraer el contenido de pregunta y respuesta de la página. Además, también es posible que Google esté trabajando directamente con Quora para recopilar datos estructurados sobre su contenido de pregunta y respuesta. Independientemente de cómo Google esté leyendo la información, puede ser difícil extraer los mismos datos en un scraper sin más información sobre la implementación de Quora.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

El HTML de Quora no muestra schema.org, pero Google los muestra en la sección de preguntas/respuestas, ¿cómo es esto posible?

Answer

davy.ai