Arquitectura y herramientas de software para el manejo de Big Data en entornos computacionales
Contenido principal del artículo
Resumen
En la era digital, el procesamiento de grandes volúmenes de datos (Big Data) se ha convertido en un desafío fundamental para organizaciones de distintos sectores. Se proyecta que para 2026 el volumen global de datos alcanzará un tamaño aproximado de entre 200 y 210 zettabytes, impulsado principalmente por el crecimiento de dispositivos IoT, redes sociales y sistemas de información corporativos. En este contexto, la infraestructura de software desempeña un papel clave en la recolección, el análisis y el almacenamiento eficiente de datos masivos.
Este artículo presenta una revisión crítica de las principales tecnologías y arquitecturas utilizadas en el ecosistema Big Data, con especial énfasis en herramientas ampliamente adoptadas como Apache Hadoop, Apache Spark y bases de datos NoSQL (por ejemplo, MongoDB, Cassandra y HBase). Se describen las capacidades de estas tecnologías en relación con las características fundamentales del Big Data —volumen, velocidad y variedad—, y se comparan sus enfoques para el procesamiento distribuido y en memoria, así como sus tiempos de respuesta en distintos entornos.
Además, se analizan arquitecturas de referencia como Lambda y Kappa, destacando sus aportes al procesamiento en tiempo real y en lotes. Finalmente, se abordan los desafíos actuales del sector, incluyendo la escalabilidad, la integración de fuentes heterogéneas y las preocupaciones relacionadas con la seguridad y la privacidad. El artículo concluye con una discusión sobre tendencias emergentes como la inteligencia artificial, el aprendizaje automático, el edge computing y las infraestructuras en la nube, que están redefiniendo las posibilidades del análisis de datos a gran escala.
##plugins.themes.bootstrap3.displayStats.downloads##
Detalles del artículo
Sección

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Los autores/as conservan los derechos de autor de sus trabajos y conceden a la revista IDEAS el derecho de primera publicación. Los artículos se publican bajo la licencia Creative Commons Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0), que permite leer, descargar, copiar, distribuir y compartir el contenido con fines no comerciales, siempre que se reconozca la autoría y la publicación original en la revista, sin realizar modificaciones ni crear obras derivadas. La revista IDEAS no aplica cargos por envío, procesamiento ni publicación de manuscritos, y garantiza el acceso abierto a sus contenidos.
Cómo citar
Referencias
“Apache hadoop,” https://hadoop.apache.org/, 2023, [En línea].
“Addressing big data problem using hadoop and map reduce,” in 2012 Nirma University International Conference on Engineering (NUiCONE), 2022, pp. 1–5, [En línea]. [Online]. Available: https://doi.org/10.1109/NUICONE.2012.6493198
Understanding Big Data: Analytics for enterprise class Hadoop and streaming data, 2022.
“Cassandra: A decentralized structured storage system,” ACM SIGOPS Operating Systems Review, vol. 44, no. 2, pp. 35–40, 2020, [En línea]. [Online]. Available: https://doi.org/10.1145/1773912.1773922
“Apache spark,” https://spark.apache.org/, 2023, [En línea].
“Mapreduce: Simplified data processing on large clusters,” Communications of the ACM, vol. 51, no. 1, pp. 107–113, 2008, [En línea]. [Online]. Available: https://doi.org/10.1145/1327452.1327492
“Mongodb,” https://www.mongodb.com/, 2023, [En línea].
“The hadoop distributed file system,” in 2022 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), 2022, pp. 1–10, [En línea]. [Online]. Available: https://doi.org/10.1109/MSST.2010.5496972
“The google file system,” ACM SIGOPS Operating Systems Review, vol. 37, no. 5, pp. 29–43, 2023, [En línea]. [Online]. Available: https://doi.org/10.1145/945445.945450
“Apache hbase,” https://hbase.apache.org/, 2023, [En línea].
“Spark: Cluster computing with working sets,” in Proceedings of the 2nd USENIX conference on Hot topics in cloud computing (HotCloud’10), 2023, p. 10, [En línea]. [Online]. Available: https://doi.org/10.5555/1863103.1863113
MongoDB: The Definitive Guide, 2024.
“The tail at scale,” Communications of the ACM, vol. 56, no. 2, pp. 74–80, 2023, [En línea]. [Online]. Available: https://doi.org/10.1145/2408776.2408794
“Bigtable: A distributed storage system for structured data,” ACM Transactions on Computer Systems (TOCS), vol. 26, no. 2, pp. 1–26, 2023, [En línea]. [Online]. Available: https://doi.org/10.1145/1138057.1138067
“The hadoop distributed file system: Architecture and design,” Hadoop Project Website, 2023, [En línea]. [Online]. Available: https://hadoop.apache.org/
Hadoop: The Definitive Guide, 2024.
“Megastore: Providing scalable, highly available storage for interactive services,” in Proceedings of the Conference on Innovative Data Systems Research (CIDR), 2021, pp. 223–234.
“Data management in the cloud: Limitations and opportunities,” IEEE Data Engineering Bulletin, vol. 32, no. 1, pp. 3–12, 2023.
Big Data: Principles and best practices of scalable realtime data systems, 2022.
“10 rules for scalable performance in ’simple operation’ datastores,” Communications of the ACM, vol. 54, no. 6, pp. 72–80, 2022, [En línea]. [Online]. Available: https://doi.org/10.1145/1953122.1953144