You are leaving our main website to go to our chinese website hosted in China. For legal reasons there will not be any links pointing back to the main website.

Go to chinese website
Logo - Keyrus
Logo - Keyrus
  • Playbook
  • Servicios
  • Insights
  • Partners
  • Carreras
  • Sobre nosotros
    Propósito
    Innovación & Tecnologías
    Compromiso de Keyrus
    Ética & Cumplimiento
    Inversores
    Equipo de líderes
    Marcas
    Localizaciones

Blog post

Spark, la «modernita» del Big Data

Obsolescencia, innovación, vanguardia, avances tecnológicos, marketing, progreso... Podemos achacarlo a muchas variables o factores en mayor o menor medida pero las tecnologías están en continuo avance y lo que el año pasado era top, este año es viejo y pasado de moda.

Una de las industrias donde este hecho se ve año tras año es en el mundo smartphone.

Te compras un móvil nuevo y al año siguiente el nuevo modelo parece estar a mil años luz de tu viejo, triste y lento móvil (sí, el que hace un año era un cohete y tratabas con tanto cariño y cuidado como si de un bebé se tratara). No quiero entrar en detalles de la obvia y aplastante obsolescencia programada, pero la evolución del mundo tecnológico tiene fácil comparación a esta.

Estés donde estés y estés como estés, la vida sigue funcionando, rodando y avanzando y si no te subes al tren, te quedas desactualizado y olvidado.

Hadoop y Spark, Spark y Hadoop

Nuestro “Titanic tecnológico”, Hadoop, con su truquito de dividir y paralelizar consigue que tareas que antes se hacían en días se hagan en horas, sin embargo (agárrate a la silla) esto se puede hacer mucho más rápido.

¿Cómo?

En vez de trabajar en el disco, existe la posibilidad de trabajar en la memoria o hacerlo de manera híbrida y así fue como llegó al mundo nuestro queridísimo Spark.

No quiero enfrentarles, de verdad, de hecho, Spark se apoya en el HDFS de Hadoop dado que no cuenta con su propio sistema de ficheros distribuido y en su gestor de recursos Yarn (mucho más maduro que Standalone, el gestor de recursos de Spark) pero por darle un poquito de chispa a este artículo. . . vamos a comparar Spark con Hadoop Map Reduce:

Spark realiza trabajos unas 80 veces más rápido y además consigue reducir las complejidades que nos vamos encontrando con Hadoop. La gran ventaja de Spark es que cuenta con un planificador denominado DAG que establece tareas a realizar y optimiza los cálculos.

Recuerda que. . .

-La programación en MapReduce sigue una metodología propia que hace que haya que resolver los problemas según esa manera de trabajar por lo que todo se vuelve más complejo

-Para hacer análisis SQL en Hadoop hay que añadir Hive

-Para programar en lenguaje de alto nivel pero a la vez sencillo, usaremos Pig

-Si quieres acercarte a lo que sería un análisis en tiempo real con Hadoop, deberías incluir Storm

-¿Y para llevar a cabo Analítica Avanzada y Machine Learning? Tendrías que incorporar herramientas como R, Python o Mahout

Spark pretende solucionar estas complejidades reuniendo todas las funcionalidades que vamos a necesitar dentro de un entorno Big Data con componentes como SparkSQL para consultas y análisis interactivos, SparkStreaming para Machine Learning, además de un lenguaje de alto nivel como Scala, la integración nativa para Python y R y ser además compatible con Java ¿Qué tal suena todo esto?

Ventajas de Spark

Spark, el motor de procesamiento distribuido en memoria en clusters big data, se ha posicionado como el entorno Big Data para los próximos años.

Me gustaría que recordaras que Hadoop tiene dos componentes: Almacenamiento (HDFS) y el Procesamiento (el tortuoso MapReduce). En muchas arquitecturas Big Data y gracias a Yarn, Spark sustituye a MapReduce como procesador pudiendo ser utilizado para acceder a datos de cualquier parte de la plataforma Big Data (HDFS, bases de datos NoSql…) o fuera de ella como los Cloud DWH.

Con esta tecnología podemos cubrir prácticamente cualquier caso de uso Big Data sin necesitar nada más:

1. Acceso a cualquier fuente de datos y hacer consultas SQL

2. Hacer análisis interactivos sobre datos en memoria de forma eficiente

3. Dar soporte, sin necesidad de acudir a otro componente, a casos de uso que necesiten operaciones en tiempo casi real

4. Análisis de redes (grafos)

5.Con Scala, un lenguaje de más alto nivel que MapReduce, podemos realizar procesos de limpieza y encadenamiento de varios procesos para transformar y preparar datos de manera más sencilla y eficiente

6. Conectar herramientas de Smart BI para visualización de datos, reporting, etc.

7.Presenta una mejor integración que Hadoop para lenguajes orientados a Advanced Analytics como Python y R, aunque también podemos desarrollar algoritmos de Machine Learning con su propia librería o librerías externas como H20

¿Todo el monte es orégano o es oro todo lo que reluce?

Spark, sin duda alguna, le está comiendo todo el terreno a Hadoop dado que las necesidades del mercado van hacia la simplificación de la instalación, automatización e integración de los procesos de negocio. Pero ¿qué le falta a Spark?

La mayor debilidad de Spark es que no trabaja en tiempo real, si no casi real. Es decir, no trabaja cada evento de manera individual en su procesamiento streaming si no que agrupa varios batches que se dan en un periodo temporal o en número de eventos.

Flink soluciona esto, y se postula como herramienta que sustituirá a Spark a medio-largo plazo, dado que dejamos algún caso de uso fuera de Spark sin embargo son aplicaciones poco frecuentes en proyectos Big Data por lo que a Spark aún le queda un largo recorrido y muchos buenos momentos que darnos.

Referencias:

Medios: Revista Cloud Computing, Big Data Magazine, Retina el País

Libro: González Díaz, I. «Big Data para Ceos y Directores de Marketing», (2017). Puedes adquirirlo aquí

whatsapptwitter
linkedinfacebookworkplace
newsletter.svg

¡No te pierdas nuestros insights!

Mantente al día en las últimas noticias y eventos

Tu dirección de correo electrónico se utiliza para enviarte la newsletter de Keyrus y para fines de prospección comercial. Puedes utilizar el enlace de opt-out en nuestros correos electrónicos en cualquier momento. Más información sobre la gestión de sus datos y sus derechos.

Continuar leyendo

Blog post

5 razones por las que deberías utilizar la analítica predictiva en tu negocio

24 de enero de 2023

Tomar decisiones más acertadas y estratégicas, evitar riesgos (o minimizar su impacto), gestionar tus recursos de manera más eficiente, reducir costes o fidelizar mejor a tus clientes son algunas de las ventajas competitivas que puedes obtener gracias al uso de la analítica predictiva.

Blog post

Los 6 pasos imprescindibles que debes seguir para construir tu modelo predictivo

16 de enero de 2023

¿Cuáles son los pasos para crear un modelo predictivo? En este artículo, veremos cómo se requiere de una combinación perfecta de técnicas y un poco de intuición para implementarlos de manera exitosa.

Blog post

Cómo explicarle a tu abuela qué es la analítica predictiva en solo 2 minutos

5 de enero de 2023

¿Cómo explicar el funcionamiento de esta disciplina que trabaja con algoritmos que consiguen predecir el futuro a través de los datos? Aquí te lo contamos.

Opinión de experto

"Las empresas han encontrado en los datos a un grandísimo aliado"

29 de diciembre de 2022

Entrevista de la revista Woman a Kathy Contramaestre, Managing director de Keyrus.

Blog post

Keyrus Magazine 2022, el mejor contenido del año

22 de diciembre de 2022

Aquí llega un recopilatorio de nuestro mejor contenido y de las entrevistas a nuestros managing directors, el equipo de marketing, presales y delivery y secciones exclusivas con nuestros expertos en Retail, Seguros, Turismo, Energía y Manufacturing

Blog post

Científicos vs. Analistas de datos: ¿Quién es quién?

16 de noviembre de 2022

¿No se ocupan ambos de trabajar con ordenadores, números y algoritmos sin parar? Bueno, eso es un poco verdad. Pero la realidad es que ambos son dos perfiles muy distintos y en este artículo vamos a conocer sus diferencias.

Opinión de experto

Filtrado colaborativo y filtrado basado en contenido

16 de noviembre de 2022

Técnicas utilizadas en los modelos de filtrado colaborativo y basado en contenido.

Opinión de experto

Spotify y Netflix, los dioses de los modelos de recomendación

15 de noviembre de 2022

Los sistemas de recomendación han logrado cambiar la forma en la que consumimos nuevos contenidos y descubrimos productos nuevos.

Blog post

El as bajo la manga de los decision makers

14 de noviembre de 2022

El Data Science se convirtió en el as bajo la manga de los decision makers tras la pandemia y ahora son unos players destacados de la partida que cuentan con más recursos que antes para hacer frente a un mercado más digitalizado y más competitivo.

Blog post

El ciclo de vida de la inteligencia artificial: alcance, diseño de modelos y despliegue

14 de noviembre de 2022

Como todos, la tecnología y las máquinas también tienen un ciclo vital: nacen, se desarrollan y mueren. Vamos a ver cada una de las etapas de la inteligencia artificial y los factores clave a tener en cuenta a la hora de implementarlas dentro de las organizaciones.

Logo - Keyrus
Madrid

Calle las Norias 80, 1-H 28221, Majadahonda, Madrid

Teléfono:+34 91 636 98 54

Fax:+34 91 630 36 54

LinkedInInstagram
PlaybookServiciosInsightsPartnersCarrerasSobre nosotros
PropósitoInnovación & TecnologíasCompromiso de KeyrusÉtica & CumplimientoInversoresEquipo de líderesMarcasLocalizaciones
Aviso legal & Condiciones de uso
Política de privacidad
Protección de datos
Politica de Calidad