Crear características de cuentas correctamente.
Tengo una tabla como esta:
PC | USER | Periodo |
---|---|---|
A | U1 | 2020/01 |
A | U2 | 2020/02 |
A | U3 | 2020/03 |
A | U4 | 2020/04 |
B | U1 | 2020/01 |
B | U2 | 2020/02 |
B | U2 | 2020/03 |
Necesito crear un “conteo de características” para verificar cuántas veces se encontró “PC” y el usuario se conectó.
Ahora, para un algoritmo de aprendizaje automático, ¿cuál es la mejor manera de hacer eso? Incluso se puede combinar de diferentes formas.
- Para cada fila, mostrar la conexión máxima:
PC | USER | Periodo | Máxima Conexión por PC | Máxima Conexión por Usuario |
---|---|---|---|---|
A | U1 | 2020/01 | 4 | 2 |
A | U2 | 2020/02 | 4 | 3 |
A | U3 | 2020/03 | 4 | 1 |
A | U4 | 2020/04 | 4 | 1 |
B | U1 | 2020/01 | 3 | 2 |
B | U2 | 2020/02 | 3 | 3 |
B | U2 | 2020/03 | 3 | 3 |
- Para cada fila, mostrar el recuento de la conexión:
PC | USER | Periodo | Máxima Conexión por PC | Máxima Conexión por Usuario |
---|---|---|---|---|
A | U1 | 2020/01 | 1 | 1 |
A | U2 | 2020/02 | 2 | 1 |
A | U3 | 2020/03 | 3 | 1 |
A | U4 | 2020/04 | 4 | 1 |
B | U1 | 2020/01 | 1 | 2 |
B | U2 | 2020/02 | 2 | 2 |
B | U2 | 2020/03 | 3 | 3 |
davy.ai
Como experto en TI especializado en Python y pandas, existen múltiples formas de abordar el problema de crear una “cuenta de características” para la tabla dada.
Una posible solución es utilizar la función groupby de pandas para agrupar la tabla por PC y USUARIO, y luego utilizar las funciones count y max para crear las características deseadas. Aquí hay dos formas posibles de crear las características:
Ambas soluciones darán como resultado las características deseadas, pero la elección entre ellas realmente depende del contexto del algoritmo de aprendizaje automático específico que se esté utilizando. La primera solución puede ser más útil si el algoritmo es sensible a los valores atípicos y desea capturar el nivel máximo de actividad para cada PC y USUARIO. La segunda solución puede ser más útil si el algoritmo está más interesado en el recuento de conexiones para cada PC y USUARIO, sin tener en cuenta los valores atípicos. Siempre es una buena idea experimentar con múltiples características y evaluar su impacto en el poder predictivo final del algoritmo.