En este primer artículo del año os hablaré de los datos no estructurados, su contexto actual y que soluciones se ofrecen desde HPE para el almacenamiento de los mismos.
Datos no estructurados
Definir con claridad qué son los datos no estructurados no es algo trivial, o al menos no lo es en un primer momento. Normalmente las definiciones que uno puede encontrar se refieren a estos como: “Información que no tiene un modelo de datos predefinido o no está organizada de una manera predefinida, lo que da como resultado irregularidades y ambigüedades que dificultan su comprensión utilizando programas tradicionales en comparación con los datos almacenados en forma de bases de datos o anotados (etiquetados semánticamente) en documentos.”
Y esto es precisamente lo que son, datos que no tienen un orden predefinido. ¿Por qué?, por su naturaleza la información que contienen no se puede ordenar en base a unas etiquetas o magnitudes comunes y predefinidas con el resto de datos del conjunto. Los datos no estructurados carecen de una estructura uniforme que permita organizarlos fácilmente en tablas predefinidas, ya que no se les asignan etiquetas comunes a todo el conjunto que describan su contenido de forma sistemática. Aunque pueden tener metadatos asociados (como nombre o formato), el contenido principal no sigue un modelo estándar. En contraposición, los datos estructurados son información organizada de forma clara y uniforme desde su origen, con etiquetas predefinidas (columnas o campos) que permiten ordenarlos típicamente en tablas relacionales para facilitar su análisis y consulta.
De hecho, uno de los campos de trabajo con mayor crecimiento en la última década es el de cómo obtener valor de este desorden que representan los datos no estructurados y encontrar variables relacionales que nos permitan obtener nueva información de valor. Para ello es común el uso del machine learning ML, una técnica de IA donde se usan algoritmos que son capaces de encontrar correlaciones y hallar estas variables relacionales. Y es que el orden es en sí mismo información. De hecho, una de las definiciones físicas de información, se basa en el concepto de entropía S, que mide precisamente el desorden de un sistema físico. Lo que esta claro es que con datos ordenados es más sencillo trabajar y obtener nueva información de valor.
Contexto actual del dato
Es importante comprender la situación actual de los datos en el mundo para entender las necesidades actuales para las que las soluciones modernas de almacenamiento deben dar respuesta.
- El volumen de datos: en todo el mundo no deja de crecer, además lo hace de forma acelerada, se estima que, para el nuevo año 2025, alcanzaremos los cientos de zetabytes (10^21) en todo el mundo, de los que, un 80-90%, se estima que serán no estructurados. Esto se traduce en que la solución debe de poder escalar de forma ágil y sencilla para dar respuesta al crecimiento acelerado de los datos.
- Diversidad en el lugar donde el dato es utilizado y almacenado: Las cargas de trabajo actuales requieren almacenar el dato y utilizarlo en una amplia variedad de sitios y formatos: en el edge, on prem y en la nube pública. La solución debe de permitir el flujo y el uso entre sites de diferente tipología y topología: fichero u objeto.
- Gestión centralizada, sencilla y con visibilidad global. Los puntos anteriores crean una nueva necesidad: la de gestionar todos estos datos con una solución que permita la visibilidad, análisis y acceso a todos ellos de forma centralizada y segura. Las soluciones modernas responden a esta necesidad con plataformas de gestión cloud centralizadas.
En cuanto a las formas que tenemos de acceder y almacenar datos no estructurados existen dos: como ficheros y como objetos. Los datos tratados como ficheros, se almacenan en sistemas basado en una estructura jerárquica de directorios y subdirectorios, donde cada archivo tiene un nombre y una ubicación específica dentro del sistema. Los tratados como objetos se almacenan en un punto único sin jerarquías donde a cada dato se le asigna un ID identificador único que lo define. Cada uno tiene sus ventajas y desventajas y es utilizado por conveniencia y convergencias en el desarrollo histórico de la tecnología en distintos tipos de cargas de trabajo.
Soluciones HPE para el almacenamiento de Ficheros
Centrándonos en el porfolio de soluciones que ofrece HPE para el almacenamiento de ficheros vemos que HPE ofrece soluciones 100% propiedad HPE como es HPE GreenLake for File Storage y en otros casos ofrece soluciones en las que HPE valida un hardware para el uso de soluciones de otras compañias como ocurre con: Qumulo, Weka o Cohesity.
Echemos un ojo a estas soluciones y sus características principales para entender mejor cual nos puede encajar mejor en cada caso y para que han sido pensadas.
HPE GreenLake for File Storage: 100% HPE.
La solución se basa en las modernas cabinas de almacenamiento Alletra MP sobre el que se instala el software define storage SDS, VAST.
Posee una arquitectura compartida diseñada para escalar a capacidades de exabytes; con una experiencia de gestión cloud simple e intuitiva y un namespace global para facilitar la colaboración.

La solución HPE GreenLake for File Storage consta de tres componentes principales:
- Hardware: Basado en las cabinas de almacenamiento desagregado Alletra Storage MP que para el caso de ficheros se ofrece en dos modelos: el estándar y el de alta densidad. Los componentes de esta cabina son siempre: Compute Nodes, JBOF y Switches.
- Software define storage para el almacenamiento de ficheros basado en VAST con tecnologías de compresión para datos no estructurados:

- La plataforma de gestión cloud: HPE GreenLake Cloud Platform que permite que el servicio de archivos se gestione desde una única plataforma cloud gestionada si se desea y con servicios de soporte como: llamada a casa, soporte remoto y recopilación de datos de telemetría.
Características principales:
- Solución all-flash NVMe.
- Consola de gestión cloud HPE: Gestión integral del ciclo de vida del dato desde la plataforma cloud de GreenLake Edge to cloud platform de HPE.
- Soporte HPE.
- Tecnología de reducción del dato (compresión y deduplicación) para datos no estructurados.
- Soporte para NFS y SMB. Compatible con S3.
- Compatible con NVIDIA GPUDirect Storage GDS, habilita una ruta de acceso a datos directa a la memoria (DMA) entre la memoria de la GPU y el almacenamiento, lo que evita un búfer de rebote a través de la CPU. Esto aumenta el ancho de banda del sistema y disminuye la latencia y la carga de utilización en la CPU.
- Seguridad basada en RAID a nivel de Pool y replicación asíncrona.
- Modelos de consumo flexible: modelo en propiedad (tradicional) o pay-as-you-go (modelo de pago por uso o cloud experience).
- Posibilidad de configuraciones de alta densidad de almacenamiento
La configuración mínima es de 220 TB y ofrece velocidades de escritura de hasta 30 GB/s en escritura secuencial.
Ideal para:
Aquellos que desean obtener insights profundas a partir de grandes volúmenes de datos no estructurados de escala de exabytes y/o que manejan cargas de trabajo intensivas como por ejemplo de tipo ML e IA. Necesidad de un escalado desagregado y flexible. Preferencia por una gestión cloud ágil y sencilla con posibilidad de servicios gestionados.
Soluciones HPE con Qumulo:
Resumen: Se trata de una solución SDS con Qumulo, HPE válida diferentes tipos de hardware para la solución con Qumulo como son los servidores Alletras de la serie 4110 y Apollo 4200.
Características principales:
- Flexibilidad a la hora de elegir entre un hardware HPE híbrido u all-flash.
- Simplicidad en el despliegue, la gestión y con un escalado lineal.
- Compatibilidad con protocolos SMB, NFS y API S3 (objeto).
- Control analítico en tiempo real y replicación asíncrona.
- Consola de gestión cloud Qumulo.
- Soporte Qumulo y HPE hardware.
- Soporte para NFS, SMB, S3 API y FTP.
- Protección adaptable y flexible con el escalado. Replicación continua asíncrona.
- Modelo de consumo flexible: modelo en propiedad (modelo tradicional) o pay-as-you-go (modelo cloud).
Ideal para:
Quienes busquen almacenar, administrar y utilizar datos no estructurados activos, es decir, en uso, en cualquier lugar: on-prem, el edge y/o la nube pública donde además Qumulo es nativo. Aquellos que desee n mejorar la experiencia de soporte que ofrecen otras soluciones: Qumulo destaca por el alto grado de satisfacción de los clientes con su soporte. Posibilidad de adaptación a un gran abanico de cargas de trabajo desde destinadas a archivado de gran cantidad de datos LTR, hasta el uso de cargas con alta demanda de rendimiento que requieren un acceso rápido y ágil.
Capacidad mínima configurable de 80 TB. No para workloads centrados en bases de datos de VM.
HPE Solutions with WEKA
Resumen: Las soluciones HPE con SDS WEKA incluyen sistemas creados específicamente con los servidores: HPE ProLiant DL325 Gen11, el DL345 Gen11, los rápidos sistemas HPE Alletra 4110 con discos EDSFF o los HPE ProLiant DL325 Gen10 Plus V2 y HPE ProLiant DL360 G10 Plus; los cuales proporcionan una plataforma de datos escalable a escalas de exabyte para cargas de trabajo intensivas en datos y rendimiento como por ejemplo las de IA.
Características principales:
- Sistema hibrido único con sistema de archivos en paralelo totalmente distribuido organizado por niveles.
- Acceso a datos no estructurados: ficheros y objetos.
- Protocolos: POSIX, NFS, SMB, GPU Direct Storage, S3, CSI.
- Combinación de distintos discos: Flash NVMe EDSFF y SDD.
- Diferentes licencias de protección del dato según nuestras necesidades.
- Expansión del global name space por niveles a cualquier almacén de objetos compatible con S3 (aprovisionado por HPE, terceros o nube pública) eliminando la necesidad de copiar conjuntos de datos entre sites.
- Compatibilidad con InfiniBand y Ethernet de baja latencia (a 100 Gbs, 200 Gbps y 400 Gbps) significa que los datos no tienen que estar localizados on prem para obtener el mayor rendimiento.
- Distribución dinámica de los datos entre todos los nodos del clúster para un acceso paralelo y resiliente que ofrece un rendimiento y escalabilidad constantes.
- Escalable fácilmente en multisites cloud u on prem. Escalabilidad desagregada entre GPUs y CPUs en función del hardware que se elija ampliar.
- Consumo a través de licencias de suscripción de 1, 3 y 5 años.
Ideal para:
Infraestructuras que utilicen GPU de forma intensiva en sus cargas de trabajo, normalmente cargas intensivas como: HPC, IA y aplicaciones científicas que requieren alta demanda de rendimiento y baja latencia con máxima velocidad de acceso al dato. WEKA posee un protocolo propio el GPU Direct Storage, que hemos mencionado, que permite el acceso directo de la GPU a los datos sin la necesidad de la participación de la CPU en el proceso lo que optimiza las tareas en ambos tipos de procesos.
Ciertamente su coste por Tera es significativamente mayor al del resto de soluciones comentadas anteriormente.
HPE Solutions with Cohesity:
Resumen: Es normal también que deseemos tener copias de seguridad de nuestros datos no estructurados. Cohesity ofrece una solución de backups inmutables para protegernos contra las ciberamenazas en cualquier sitio: on prem o en cualquier nube pública, integrándose perfectamente con los protocolos típicos de ficheros SMB y NFS así como objetos S3 para almacenamiento en la nube. Además, nos ayuda a gestionar todas las copias desde una única plataforma de gestión cloud centralizada. HPE valida para esta solución el portfolio de servidores Alletra 4120 y los Proliant Dl320, DL325, Dl345 y DL380 Gen11 añadiendo el extra de seguridad a nivel hardware que ofrece HPE con el Silicon Root of Trust en todos sus dispositivos. También es una buena solución para el archivado de grandes cantidades de datos o LTR.
Características principales:
- Integración de nuestros backups entre on prem y cualquier cloud publica.
- Como almacenamiento secundario y/o, LTR.
- Promete inmutabilidad ante ataques ransomware.
- Permite realizar backups de bases de dato no SQL y Kubernetes.
- Elimina los silos de información.
- Recuperación casi instantánea sin necesidad de rehidratación.
Ideal para:
Infraestructuras que utilicen datos no estructurados y quieran mantener sus datos a salvo de amenazas en el presentes y futuras enviando backups a la nube así como manteniendo copias on prem. Cargas de trabajo que generen gran cantidad de ficheros que se deseen almacenar fuera del site.
Espero que este artículo os haya servido para aclarar conceptos y tener una idea clara del portfolio de soluciones de almacenamiento de ficheros que ofrece HPE.
Un saludo,