Demo InfoSight: mostrando la plataforma de análisis predictivo de HPE

InfoSight es una tecnología de inteligencia artificial que está cambiando el modo en el que gestionamos nuestro Datacenter. Con InfoSight se analizan y correlacionan métricas provenientes de millones de sensores de nuestros clientes. Con estas métricas, la Inteligencia Artificial realiza análisis predictivos que nos llevan a que el 86% de los problemas se resuelvan automáticamente, antes incluso de que se sepa que existían.

Gracias a la filosofía de InfoSight de ver una vez y prevenir para todos, la disponibilidad de nuestra infraestructura se ha visto mejorada ampliamente, llegando a ofrecer una disponibilidad real y medida en nuestros clientes del 99,9999% en nuestros sistemas de almacenamiento HPE. Esta filosofía se basa en lo siguiente: en caso de que se detecte un problema en un cliente, nuestra inteligencia artificial detectará ese problema, lo resolverá y prevendrá a otros usuarios de verse afectados por el mismo problema. En este artículo nos vamos a centrar en mostrar el portal de InfoSight para la cabina HPE Nimble. Hay que tener en cuenta que en este portal no se nos va a mostrar cómo funciona el machine learning que detecta los posibles problemas o cómo el sistema aprende de toda la base instalada; sería imposible mostrar todo esto en un portal debido a la profundidad de los análisis. Pero lo que sí que InfoSight nos va a mostrar va a ser una serie de dashboards con información muy detallada, diferentes previsiones a nivel de rendimiento y capacidad, plantear escenarios de ‘qué pasaría si…’ y además nos va a permitir lanzar peticiones para que la IA analice mi infraestructura con el objetivo de obtener recomendaciones sobre cómo mejorar y sacarle el máximo partido

En este artículo nos vamos a centrar en mostrar el portal de InfoSight para la cabina HPE Nimble. Hay que tener en cuenta que en este portal no se nos va a mostrar cómo funciona el machine learning que detecta los posibles problemas o cómo el sistema aprende de toda la base instalada; sería imposible mostrar todo esto en un portal debido a la profundidad de los análisis. Pero lo que sí que InfoSight nos va a mostrar va a ser una serie de dashboards con información muy detallada, diferentes previsiones a nivel de rendimiento y capacidad, plantear escenarios de ‘qué pasaría si…’ y además nos va a permitir lanzar peticiones para que la IA analice mi infraestructura con el objetivo de obtener recomendaciones sobre cómo mejorar y sacarle el máximo partido. 

Veamos el primer Dashboard: Seleccionamos Dashboard ->Operational

En esta parte nos vamos a encontrar un resumen del estado de nuestros sistemas. En la parte de performance vemos las IOPS de cada cabina. Y aquí si hubiera algún comportamiento anómalo nos lo marcaría en rojo de la siguiente manera:

Si nos posicionamos sobre el recuadro veremos más detalles, lo interesante de este cuadro de diálogo es el ‘Potential Impact’ porque nos tasa la gravedad del problema dándole un valor numérico entre 0 y 10. Así que, sí al observar estos eventos marcados en rojo vemos que el impacto tiene un valor alto (entre 8 y 10) sabríamos que ese evento debería ser analizado en profundidad.

En este dashboard también se muestra un ranking de las máquinas virtuales en función de las IOPS y las latencias según los resultados de las últimas 24h.

También vemos la parte de ‘Capacity’ que nos avisaría en el caso de que una cabina o un volumen estuviese quedándose sin capacidad. En este caso nos muestra un estado crítico en el que podemos ver que hay 3 volúmenes que están sin capacidad. Haciendo clic en el aviso nos mostraría más detalles.

Vemos ahora la integración de InfoSight con VMware: Infrastructure ->Virtualization -> Clusters

Aquí vemos de un vistazo si tenemos algún host sobreutilizado. En este caso vemos que estas graficas están equilibradas, es decir existe un equilibrio entre CPU y memoria de los hosts. Además, en el caso de que algún host estuviese sobreutilizado en la parte de arriba nos lo marcaría. En esta ocasión vemos ‘0 overutilized Hosts’, por lo que sabemos que nuestros hosts están equilibrados.

También podemos ver detalles de las MV que tenemos en nuestro entorno: Pestaña VMware -> VMs

Aquí veríamos más detalles de las MVs como su capacidad, parámetros de rendimiento, el datastore al que pertenecen…  Si nos fijamos hay algunas MVs en negro en vez de azul. ¿Qué significa esto? Son MVs inactivas pero que están acaparando almacenamiento. Por lo tanto, es interesante tenerlas controladas para optimizar los recursos.

Cambiamos la vista a ->VM I/O Contention Treemap ->Seleccionamos el VCenter

Nos encontramos con un mapa donde vemos los datastores de nuestro Vcenter. El color rojo del bloque significa que ese datastore está experimentando más o menos latencia y el tamaño del bloque muestra las IOPS que consume. De esta manera, de un solo vistazo analizamos todo el ecosistema de máquinas virtuales de nuestro entorno.

Si seleccionamos un datastore y dentro de este tomamos una máquina virtual, veremos más información de esta MV y podríamos analizar la latencia. Pero no solo eso, sino que veríamos una atribución de esa latencia. Por ejemplo, en este caso los picos de latencia se deben al host, no al almacenamiento. Por lo que, sí quisiéramos invertir recursos para reducir la latencia no tendría sentido que pusiésemos el foco de inversión en la cabina, en este caso, deberíamos invertir en la mejora del host.

Vamos a ver otro de Dashboard, el Executive: Dashboard-> Executive

Aquí podemos ver por un lado el ahorro del dato debido a la deduplicación, a la compresión y a los clones, ya que los volúmenes clonados no ocupan espacio en nuestra cabina hasta que no haya cambios en ellos.

Vemos la eficiencia a nivel de operaciones, InfoSight lo que nos muestra es los periodos en los que se han abierto casos y nos distingue cuándo ese caso se ha cerrado manual o automáticamente, es decir InfoSight sin que nos diésemos cuenta ha detectado un problema, nos ha avisado y nos ha dado instrucciones claras de cómo resolverlo. Aquí es donde la media de casos resueltos automáticamente es del 86%.

Nos encontramos también la parte de protección del dato. Aquí vamos a ver el RPO por aplicación, la retención de los snapshots y las aplicaciones que están protegidas por snapshots locales, cuales están siendo replicados y cuales se encuentran sin proteger.

Y la última parte y la más interesante: la necesidad de actualizaciones. InfoSight nos muestra gráficamente el uso de CPU y de caché de las cabinas que necesitarían alguna actualización. Nos hace una previsión de la capacidad. Y en la parte de la derecha nos da la recomendación que la inteligencia artificial cree que es más útil hacer en nuestro entono. En este caso nos recomienda hacer un Scale-Out, es decir, poner varias cabinas a trabajar juntas. ¿Por qué? Porque la Inteligencia Artificial ha identificado que esta cabina necesita una mejora a nivel de rendimiento y capacidad, con lo cual la solución ideal sería clusterizar varias cabinas incrementando así ambos parámetros.    

Vamos a ver ahora la parte de laboratorios. Dashboard -> Labs

Disponemos de varios laboratorios que nos analizan diferentes aspectos de nuestro sistema. Algunos como el Resource planner y el Replication Planning nos permite crear escenarios de ‘qué pasaría si…’. En el primero de ellos, el laboratorio nos permite crear cargas de trabajo ficticias y el sistema comprobará si nuestra cabina soportará esas cargas de trabajo o si por el contrario necesitaríamos escalar en capacidad (añadiendo más discos), en rendimiento (actualizando la controladora) o ambos (haciendo el ‘cluster’ de cabinas que comentábamos antes).  En este caso vemos que la cabina elegida, AF20, se vería impactada por estas cargas de trabajo adicionales, sin embargo, InfoSight nos muestra que las cabinas AF80 y AF60 podrían albergar estas cargas de trabajo sin sufrir impacto en su rendimiento.

El segundo laboratorio, ‘Replication Planning’, sirve para simular un escenario de replicación entre cabinas. En estos casos la duda que siempre nos surge es ¿Cuánto ancho de banda voy a necesitar entre las cabinas/sedes? La complejidad a la hora de obtener este valor es tal que al final acabamos sobredimensionando nuestra red. En este laboratorio seleccionamos la cabina que replicará, seleccionamos si queremos dimensionar por volúmenes o por aplicaciones. Seleccionamos los volúmenes que queremos replicar y ponemos que se replique cada 5 min. Esta simulación nos dice qué ancho de banda es el óptimo. En este caso serían 5 Mb por segundo.

Este valor es una estimación que resulta muy compleja de obtener porque depende no sólo de los datos que posea la cabina, sino de la tasa de cambio de los datos de cada aplicación.

InfoSight sabe cuál es realmente la tasa de cambio de nuestro entorno y puede hacer estos cálculos con más precisión.

Pasamos ahora a estudiar el laboratorio de ‘AI performance Recommendations’. Lo que hace este laboratorio es: analizar nuestra cabina entre dos periodos de tiempo elegidos con el objetivo de encontrar alguna manera de mejorar el rendimiento. Sin ningún parámetro de entrada más, solo cabina y fecha. En la parte ‘Latency Sensitive’ selecciono la sensibilidad a la latencia más alta, ¿por qué? Porque así me aseguro de que me va a dar más recomendaciones, es decir, mi cabina ya funcionaba bien como hemos visto en el dashboard inicial, pero lo que le digo aquí es analízamela al milímetro y dime cómo puedo mejorarla, aunque ya vaya bien.

En la parte de la izquierda vemos de manera gráfica si hay algún periodo en rojo, es decir, si hay algún periodo anómalo en el que el rendimiento se podría mejorar. En la parte de la derecha, la más interesante, vemos el resultado de este análisis. En este caso nos dice que hay muchas lecturas que no se están haciendo en caché. ¿Y con este problema que podemos hacer? Pues InfoSight nos da varias recomendaciones claras.

Primera recomendación: Consider QoS limits on random read workloads. Es decir, analizar en qué volúmenes se están produciendo esos pocos aciertos en lectura para ponerles un QoS (limitar el rendimiento de ese volumen que es el que provoca fallos en caché). En la parte de abajo InfoSight nos identifica cuáles son estos volúmenes.

Esto se haría en la consola de la cabina HPE Nimble de esta manera al crear o editar el volumen:

Segunda recomendación: Consider staggering random read workloads. Esto básicamente significa organizar mis cargas de trabajo para que no coincidan todas en el mismo horario.

Tercera recomendación: Increase the SSD cache from 480.11 GB to 800 GB or higher. Y, por último, InfoSight nos recomienda directamente que aumentemos la SSD. Y nos dice claramente cuánta SSD deberíamos poner para que el sistema fuese lo más eficiente posible.

Y con esto, habríamos visto los aspectos más interesantes de InfoSight. Simplemente quiero recordar que, aunque esta demo se ha realizado para la solución de almacenamiento HPE Nimble, InfoSight se está implementando en gran parte del portfolio de HPE, por lo que aspectos similares a los vistos aquí se podrían mostrar en el portal de InfoSight de los demás productos.

Be Nimble!

Comparte este artículo

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *