Detección de Anomalías con Python Pandas

Detectar anomalías puede ser algo muy útil para ayudar en muchas tareas cotidianas cuando manejamos mucha información.

Por ejemplo, empresas que tienen muchas métricas monitorizadas pueden llegar a tener cientos de gráficas que les indican cual es la situación de su negocio, pero necesitan a gente que interprete esas gráficas y les diga si todo está bien, si el estado actual es normal o por el contrario, está pasando algo “fuera de lo normal”, por lo tanto, detectar una anomalía.

Crear un sistema automático que detecte dichas anomalías puede ayudar mucho a cualquier negocio, facilitando a los humanos a que utilicen su tiempo en áreas mucho más valiosas que simplemente interpretar unos datos, unas gráficas o ciertos KPI’s.

En el siguiente vídeo muestro cómo podemos crear en pocos minutos nuestro propio sistema de detección de anomalías simple, suficiente para detectar la mayoría de casos anómalos en base a casi cualquier tipo de conjunto de datos.

Se puede ver en el Notebook que he llamado Detección de anomalías con Pandas subido en el repositorio de GitHub.

¿Verdad que tras ver el vídeo ahora ves mucho más sencillo implementar un sistema de detección de anomalías? Seguro que se te ocurren muchos sitios donde implementarlo para mejorar tu trabajo o empresa, ¿verdad?

Entrenando una red neuronal para el tiro con arco

En ocasiones se me ocurren ejemplos divertidos para mostrar cómo podemos utilizar el Machine Learning para ciertas finalidades.

En este caso se me ha ocurrido que le podemos enseñar a nuestra red neuronal a disparar con arco y dar con bastante precisión a un blanco a muchos metros de distancia. (puede ser realmente útil para cuando llegue el apocalipsis zombie :P )

Para ello, he creado un par de vídeos donde explico paso a paso cómo crear los datos necesarios, entrenar la red neuronal, comprobar su efectividad y mostrar de una forma visual los datos para su análisis.

Primera parte:

Segunda parte:

Y como de costumbre, he publicado el código en mi cuenta de GitHub:
Entrenando una red neuronal con lanzamiento parabólico

Enseñando matemáticas a una red neuronal

He vuelto a dedicarle un rato de mis noches de insomnio a preparar un vídeo donde muestro cómo se puede entrenar una red neuronal (MLP) para enseñarle matemáticas simples en Python. En el vídeo puedes ver como la red neuronal aprende a sumar, restar, multiplicar y dividir en pocos minutos.

Es una pequeña demostración, el resultado no es ni preciso ni usable en ningún caso práctico (al menos a mi no se me ocurre ninguno), es sólo una forma de compartir la experiencia para que podáis ver lo sencillo que es empezar a hacer vuestros pinitos con el Machine Learning.

Puedes ver el resultado del código creado en mi cuenta de GitHub, en el repositorio que he llamado Neural Network aprendiendo Matemáticas.

¿Que te ha parecido? ¿Se te ocurre alguna idea interesante para el próximo vídeo? ;)

Entrenando una red neuronal en Python

Mucha gente cree que utilizar el Machine Learning para resolver problemas cotidianos es muy complicado, pero no es del todo cierto, en realidad conociendo algunas herramientas en poco rato se puede tener en marcha un sistema que aprenda a dar respuesta a un problema y se adapte con el tiempo para mejorar su precisión.

He creado un pequeño juego de Piedra Tijeras Papel para enseñar a una red neuronal (muy simple, sin hacer ningún tipo de configuración y “fine tuning”) y mostrar cómo la red neuronal aprende poco a poco y mejora con cada iteración su precisión.

El vídeo está hecho de madrugada, así que espero que sepáis perdonar mi lentitud a la hora de detectar los fallos que yo mismo voy cometiendo durante la creación del código.

¿Que te ha parecido? ¿Has conseguido llegar hasta el final sin dormirte?

Update: He subido el Notebook a mi cuenta de GitHub con el nombre PiedraTijerasPapel – LIVE

Soluciones para bases de datos grandes

Uno de los retos que sueles encontrarte en el mundo de las bases de datos a nivel técnico es que sean capaces de almacenar muchos millones de documentos (filas) y a la vez sean capaces de encontrar el resultado (una aguja en un pajar) en muy pocos milisegundos.

Si tienes un proyecto pequeño y una base de datos que se maneja en gigas de datos, las soluciones son sencillas de implementar. Con algunos ajustes en la capa de aplicación (si los puedes meter) y alguna que otra capa de cache, tu base de datos rejuvenece unos cuantos años.

Si la base de datos ya es de un tamaño considerable y hablamos de teras de información, es probable que ya tengas oídos los términos como cluster, sincronización, maestro y esclavos, además de las expresiones “necesitamos más disco”, “el backup va muy lento” o “¿puedo tener una copia en local?” que pueden hacerte perder la cabeza por momentos.

Dependiendo del proyecto, puedes apoyarte en la arquitectura, gastando un buen montón de euros adicionales para mejorar la respuesta de tus bases de datos.

Pero, si no dispones de presupuesto para montar un Oracle Exadata y Oracle Coherence (por poner un ejemplo famoso) y tu proyecto puede aprovecharse de una base de datos NoSQL, es muy interesante que le pegues un vistazo a MongoDB.

Con MongoDB puedes crear de forma muy sencilla una plataforma que puede crecer tanto en redundancia (ReplicaSet) como en almacenamiento (Sharding), manteniendo siempre un muy buen nivel de capacidad de respuesta.

La configuración es bastante sencilla y amigable. Entrar a nivel de detalle de configuración te llevará muy poco tiempo y podrás hilar muy fino (si tu proyecto lo requiere) para configurar y adaptar las máquinas de bases de datos a tus necesidades. Con pocos euros, obtendrás unos resultados que pocos te podrán discutir.

Para medir esos resultados no hace falta que montes un Munin o un Ganglia que muestre las gráficas típicas que te dan mucha información interesante de un simple vistazo. Puedes utilizar el servicio de MongoDB Management Service (MMS) para ello. Instalando un simple agente en tus nodos, en pocos minutos tendrás toda una lista de gráficas muy completas que mostrarán información ordenada de que está ocurriendo con tu base de datos.

MongoDB Management Service

En la captura de arriba se pueden ver las gráficas de un par de nodos de un ReplicaSet. En el MMS puedes organizar uno o más tableros donde colocar las gráficas que te interesan para cada cosa concreta, haciéndote la vida más fácil si necesitas ver el estado de tu granja de servidores de base de datos de un vistazo.

Yo he implementado MongoDB + MMS ya en bastantes nodos de distintos proyectos y entornos productivos. La ventaja de tener en muy poco tiempo toda una solución compleja de base de datos lo convierte en un producto muy, muy, muy interesante para proyectos donde se trabaje con grandes cantidades de datos.

¿Todavía no lo has probado? ;)