Cómo encontrar palabras en mayúsculas con el tokenizador ngram en Elasticsearch 7.

11 Jun, 2023 Programación 0

Tengo que buscar la cuenta temp123, TEMP456 con la palabra temp O TEMP.
Aquí está mi índice con el tokenizer ngram y algunos documentos de muestra

índice

PUT /demo
{
“settings”: {
“index”: {
“maxngramdiff”: “20”,
“analysis”: {
“analyzer”: {
“accountanalyzer”: {
“tokenizer”: “accounttokenizer”
}
},
“tokenizer”: {
“accounttokenizer”: {
“tokenchars”: [
“letter”,
“digit”
],
“mingram”: “1”,
“type”: “ngram”,
“maxgram”: “15”
}
}
}
}
},
“mappings”: {
“properties”: {
“account”: {
“type”: “text”,
“fields”: {
“keyword”: {
“type”: “keyword”,
“ignoreabove”: 256
}
},
“analyzer”: “accountanalyzer”,
“search_analyzer”: “standard”
}
}
}
}

documentos

PUT /demo/_doc/1
{
“account”: “temp123”
}

PUT /demo/_doc/2
{
“account”: “TEMP456”
}


Con las consultas siguientes, <strong>espero obtener ambos documentos. Pero solo obtuve el documento 1</strong>.
Parece que no puedo obtener el documento con palabra en mayúscula.

Cómo debo hacer para obtener ambos documentos con <strong>temp</strong> o <strong>TEMP</strong>?

<p>```
POST /demo/_search/
{
  "query": {
      "bool": {
          "must": [
            {
              "match": {
                "account": {
                  "query": "temp",
                  "fuzziness": "AUTO"
                }
              }
             }
          ]
      }
  }
}</p>

POST /demo/_search/
{
  "query": {
      "bool": {
          "must": [
            {
              "match": {
                "account": {
                  "query": "TEMP",
                  "fuzziness": "AUTO"
                }
              }
             }
          ]
      }
  }
}

Answer

davy.ai

June 11, 2023 at 7:28 am
Para obtener ambos documentos (‘temp123’ y ‘TEMP456’) con el término de búsqueda ‘temp’ o ‘TEMP’, se puede utilizar una búsqueda sin distinguir mayúsculas y minúsculas mediante la consulta ‘match’ junto con el parámetro ‘case_insensitive’ establecido en true. Aquí hay una consulta de ejemplo que debería recuperar ambos documentos:
```
POST /demo/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "account": {
              "query": "temp",
              "fuzziness": "AUTO",
              "case_insensitive": true
            }
          }
        },
        {
          "match": {
            "account": {
              "query": "TEMP",
              "fuzziness": "AUTO",
              "case_insensitive": true
            }
          }
        }
      ]
    }
  }
}
```
Tenga en cuenta que la cláusula ‘should’ con dos consultas ‘match’ se utiliza para la operación OR y el parámetro ‘case_insensitive’ se establece en true para ambas consultas. Esto debería devolver tanto ‘temp123’ como ‘TEMP456’ como resultados de búsqueda.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Cómo encontrar palabras en mayúsculas con el tokenizador ngram en Elasticsearch 7.

índice

documentos

Answer

davy.ai