Sandra Lado Departamento de Comunicación. Universidad Isabel I
Lun, 10/05/2021 - 11:42

Big data, cohete y ´terminos de big data.

El Big Data es esencial hoy en día para las tomar decisiones en las empresas

El término inglés Big Data aparece por primera vez en el ensayo de Viktor Mayer-Schönberger, profesor de regulación y gestión de Internet en el Internet Institut de la Universidad de Oxford y Kenneth Cukier, editor de datos de la revista The Economist. Ambos escribieron ‘La revolución de los datos masivos’, al darse cuenta del giro que la irrupción del análisis y gestión de los datos masivos, están causando en la forma de hacer negocios, la sanidad, la política, la educación y la innovación.

La recopilación y almacenamiento de datos masivos (las herramientas Big Data) crece de manera vertiginosa y se calcula que la cantidad de información se duplica, como mínimo, cada dos años. Estudiar un Máster en Big Data (Máster Universitario en Análisis Inteligente de Datos Masivos) te puede abrir la puerta a una profesión con un enorme futuro ya que la importancia de este concepto radica en la información útil que es capaz de proporcionar para orientar muchas estrategias empresariales que se desarrollan en la actualidad.
 
El máster capacita para desempeñar distintos perfiles profesionales relacionados con el análisis de Big Data en distintos entornos de aplicación. La formación puede estar enfocada desde las tendencias tecnológicas de las ciencias de datos (Data Science) a la economía digital, business intelligence, marketing, Internet de las cosas (IoT), industria 4.0, ciberseguridad, biomedicina, deporte o redes sociales, entre otros. El máster está dirigido a alumnos que posean titulaciones en grado en Ingeniería Informática, en Ingeniería de Telecomunicación, Estadística o similares, aunque el perfil de ingreso está abierto a titulados de otras ramas, facilitando el seguimiento mediante un itinerario adaptado a través de los complementos formativos.

Las herramientas Big Data

La importancia de las herramientas de análisis de Big Data se concreta en descubrir cómo enfocamos el mundo de una manera diferente. Hoy en día es más interesante encontrar tanto la respuesta al ‘qué’ y cómo al ‘porqué’ de las cosas. El valor de la información no reside en los datos concretos sino en la forma de correlacionarlos para descubrir patrones, que ni siquiera se habían imaginado previamente.

En este océano de información, prima obtener una información con un sentido lo más completo posible de la realidad, y esto sólo es posible gracias a las herramientas Big Data aplicadas a ese análisis de datos. Este análisis reduce notablemente el coste de almacenamiento, lo que resulta una herramienta que mejora el rendimiento e incrementa la eficacia. Las herramientas del Big Data reducen también el tiempo y esfuerzo que utilizamos para realizar las mismas tareas.
 
Los ejemplos prácticos del uso de las herramientas para manejar Big Data están, cada día más, en distintos aspectos de la vida cotidiana: desde sensores en los camiones que definan la mejor ruta para ahorrar combustible, a calificaciones de las compañías de seguros que pueden predecir la probabilidad de que un paciente tome su medicación o a las predicciones meteorológicas. Los beneficios de las herramientas Big Data se orientan, por tanto, a la mejora de un servicio, o de la toma de decisiones, a la mayor rapidez para solucionar problemas o para conocer las fortalezas de una empresa y a su competencia, entre otros.


Principales herramientas

Las herramientas Big Data se definen como los activos de información caracterizados por un volumen, velocidad y variedad tan altos que requieren de una tecnología específica y métodos analíticos para su transformación en valor.  Se caracterizan por el aprendizaje automático, la huella digital y las herramientas informáticas paralelas para manejar los datos. Algunas de las principales herramientas Big Data en este año 2021, que se ven en el Máster en el Análisis Inteligente de Datos Masivos son:
 
1.- Apache Hadoop. Es la herramienta de Big Data más utilizada. Hadoop es un framework que procesa grandes volúmenes de conjuntos de datos en clusters, usando modelos de programación sencillos. Permite escalar fácilmente por lo que se puede pasar de operar en un solo servidor a hacerlo en varios, porque soporta además diferentes sistemas operativos. Empresas como Facebook o Yahoo usan esta herramienta Big Data open source. Y plataformas en la nube como Amazon EC2/S3 o Google Cloud lo utilizan.
 
2.- Apache Spark. Es un motor de procesamiento de datos de código abierto hasta 100 veces más rápido en memoria y 10 veces más en disco, que Hadoop. Se considera como el primer software open source realmente accesible a los científicos de datos. Permite programar las aplicaciones utilizando diferentes lenguajes como Java, Scala, Python o R y tiene la función de analizar datos divididos en lotes y en tiempo real.
 
3.- Tableau. Se trata de una herramienta de visualización de datos que se enfoca en la inteligencia empresarial. Ofrece la posibilidad de crear gráficos de barras, diagramas de dispersión, mapas… lo que resulta muy interesante para las presentaciones de empresa.


4.- Python. Es un lenguaje avanzado de programación muy extendido en el mundo del análisis de datos por las diferentes librerías auxiliares que pone a  disposición, así como su capacidad de ser empleado en los entornos Hadoop y Spark.


 5.-Lenguaje R. Es un lenguaje de programación y entorno software para cálculo estadístico y gráficos. Es el más usado por los estadísticos, los investigadores de bioinformática o quienes trabajan en matemáticas financieras. Como curiosidad, este lenguaje se parece más a las matemáticas que al lenguaje de programación. Cuenta con una extensa comunidad de usuarios lo que facilita disponer de una gran cantidad de librerías.


6.- AWS EMR. Se trata de la plataforma de clúster administrada por Amazon Web Services que simplifica la ejecución del Big Data (Apache Hadoop y Apache Spark) para procesar y analizar grandes cantidades de datos.


Las herramientas Big Data se aplican a distintos sectores, para el análisis de datos masivos y con la finalidad de optimizar decisiones tanto en las instituciones públicas como en el entorno privado. Uno de estos sectores está relacionado con la salud. Y su uso será cada vez más extendido a todos los sectores.

 

 

 

Añadir nuevo comentario