Diseño de una arquitectura para el procesamiento distribuido de grandes volúmenes de datos

Autores/as

DOI:

https://doi.org/10.47190/nric.v3i3.9

Resumen

Actualmente, Big Data se ha convertido en un concepto que está presente en muchas actividades, y su importancia es debido a que es utilizado en diversos aspectos que conduzcan a mejorar decisiones en el campo empresarial y gubernamental. Es posible analizar los grandes volúmenes de datos, tanto estructurados como no estructurados, que a cada día aumentan en los diferentes negocios y campos del conocimiento. Para obtener resultados satisfactorios es importante diseñar una arquitectura físicamente en base a Hardware Commodity (homogénea, heterogénea), escalable horizontalmente y con tolerancia a fallas. De esta manera, actualmente, con la evolución de las herramientas, es conveniente utilizar un híbrido donde la parte lógica trabaja con el Framework Apache Hadoop 2.0, que realiza el procesamiento de datos en paralelo (utilizando YARN), con almacenamiento HDFS (Sistema de Archivos Distribuidos sobre Hadoop) y agregando Spark para el tratamiento en memoria con respuestas en tiempo real y la utilización de recursos gráficos mediante Apache Ambari.Palabras claves: Ambari, Hadoop 2.0,YARN, MapReduce, Spark, HDFS, Distribución Paralela.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

www.consultec.es.

Sarah Shaikh,Deepali Vora, ”YARN versus MapReduce A comparative study”, IEEE. 2016.

Vladyslav Taran, Oleg Alienin, Sergii Stirenko, and Yuri Gordienko ”Performance Evaluation of Distributed Computing Environments with Hadoop and Spark Frameworks ”, IEEE International Young Scientists Forum on Applied Physics and Engineering. 2017.

I. Chebbi, W. Boulila, N. Mellouli ”A comparison of big remote sensing data processing with Hadoop MapReduce and Spark ” ,Advanced Technologies for Signal and Image Processing (ATSIP), 2018 4th International Conference-IEEE. 2018.

Yassir Samadi, Mostapha Zbakh ”Comparative study betweenHadoop and Spark based on Hibench benchmarks”,Cloud Computing Technologies and Applications (CloudTech), 2016 2nd International Conference on IEEE 2016.

Yunping Feng, Haopeng Chen ”Optimization of spark storagesolutions” ,Progress in Informatics and Computing (PIC), 2016 International Conference on IEEE 2016.

Bilal Akil, Ying Zhou, “On the usability of Hadoop MapReduce, Apache Spark and Apache flink for data science”,Big Data (Big Data), 2017 IEEE International Conference on IEEE 2017.

[8] Yan Li, Hongbo Wang, Yangyang Li “Research on query analysis and optimization based on spark”, Computer Science and Network Technology (ICCSNT), 2017 6th International Conference on IEEE 2017.

Akaash Vishal Hazarika “Performance Comparison of Hadoop and Spark Engine”, International conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) IEEE 2017.

http://hadoop.apache.org/

https://spark.apache.org/

https://www.ibm.com

Descargas

Publicado

2021-09-23

Número

Sección

Artículos