Arquitectura y herramientas de software para el manejo de Big Data en entornos computacionales

Contenido principal del artículo

Fabián Caicedo Goyes

Resumen

En la era digital, el procesamiento de grandes volúmenes de datos (Big Data) se ha convertido en un desafío fundamental para organizaciones de distintos sectores. Se proyecta que para 2026 el volumen global de datos alcanzará un tamaño aproximado de entre 200 y 210 zettabytes, impulsado principalmente por el crecimiento de dispositivos IoT, redes sociales y sistemas de información corporativos. En este contexto, la infraestructura de software desempeña un papel clave en la recolección, el análisis y el almacenamiento eficiente de datos masivos.


Este artículo presenta una revisión crítica de las principales tecnologías y arquitecturas utilizadas en el ecosistema Big Data, con especial énfasis en herramientas ampliamente adoptadas como Apache Hadoop, Apache Spark y bases de datos NoSQL (por ejemplo, MongoDB, Cassandra y HBase). Se describen las capacidades de estas tecnologías en relación con las características fundamentales del Big Data —volumen, velocidad y variedad—, y se comparan sus enfoques para el procesamiento distribuido y en memoria, así como sus tiempos de respuesta en distintos entornos.


Además, se analizan arquitecturas de referencia como Lambda y Kappa, destacando sus aportes al procesamiento en tiempo real y en lotes. Finalmente, se abordan los desafíos actuales del sector, incluyendo la escalabilidad, la integración de fuentes heterogéneas y las preocupaciones relacionadas con la seguridad y la privacidad. El artículo concluye con una discusión sobre tendencias emergentes como la inteligencia artificial, el aprendizaje automático, el edge computing y las infraestructuras en la nube, que están redefiniendo las posibilidades del análisis de datos a gran escala.

##plugins.themes.bootstrap3.displayStats.downloads##

##plugins.themes.bootstrap3.displayStats.noStats##

Detalles del artículo

Sección

Information and Electronic Engineering

Cómo citar

Arquitectura y herramientas de software para el manejo de Big Data en entornos computacionales. (2026). INNOVATION & DEVELOPMENT IN ENGINEERING AND APPLIED SCIENCES, 8(1), Pág. 8. https://doi.org/10.53358/ideas.v8i1.1174

Referencias

“Apache hadoop,” https://hadoop.apache.org/, 2023, [En línea].

“Addressing big data problem using hadoop and map reduce,” in 2012 Nirma University International Conference on Engineering (NUiCONE), 2022, pp. 1–5, [En línea]. [Online]. Available: https://doi.org/10.1109/NUICONE.2012.6493198

Understanding Big Data: Analytics for enterprise class Hadoop and streaming data, 2022.

“Cassandra: A decentralized structured storage system,” ACM SIGOPS Operating Systems Review, vol. 44, no. 2, pp. 35–40, 2020, [En línea]. [Online]. Available: https://doi.org/10.1145/1773912.1773922

“Apache spark,” https://spark.apache.org/, 2023, [En línea].

“Mapreduce: Simplified data processing on large clusters,” Communications of the ACM, vol. 51, no. 1, pp. 107–113, 2008, [En línea]. [Online]. Available: https://doi.org/10.1145/1327452.1327492

“Mongodb,” https://www.mongodb.com/, 2023, [En línea].

“The hadoop distributed file system,” in 2022 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), 2022, pp. 1–10, [En línea]. [Online]. Available: https://doi.org/10.1109/MSST.2010.5496972

“The google file system,” ACM SIGOPS Operating Systems Review, vol. 37, no. 5, pp. 29–43, 2023, [En línea]. [Online]. Available: https://doi.org/10.1145/945445.945450

“Apache hbase,” https://hbase.apache.org/, 2023, [En línea].

“Spark: Cluster computing with working sets,” in Proceedings of the 2nd USENIX conference on Hot topics in cloud computing (HotCloud’10), 2023, p. 10, [En línea]. [Online]. Available: https://doi.org/10.5555/1863103.1863113

MongoDB: The Definitive Guide, 2024.

“The tail at scale,” Communications of the ACM, vol. 56, no. 2, pp. 74–80, 2023, [En línea]. [Online]. Available: https://doi.org/10.1145/2408776.2408794

“Bigtable: A distributed storage system for structured data,” ACM Transactions on Computer Systems (TOCS), vol. 26, no. 2, pp. 1–26, 2023, [En línea]. [Online]. Available: https://doi.org/10.1145/1138057.1138067

“The hadoop distributed file system: Architecture and design,” Hadoop Project Website, 2023, [En línea]. [Online]. Available: https://hadoop.apache.org/

Hadoop: The Definitive Guide, 2024.

“Megastore: Providing scalable, highly available storage for interactive services,” in Proceedings of the Conference on Innovative Data Systems Research (CIDR), 2021, pp. 223–234.

“Data management in the cloud: Limitations and opportunities,” IEEE Data Engineering Bulletin, vol. 32, no. 1, pp. 3–12, 2023.

Big Data: Principles and best practices of scalable realtime data systems, 2022.

“10 rules for scalable performance in ’simple operation’ datastores,” Communications of the ACM, vol. 54, no. 6, pp. 72–80, 2022, [En línea]. [Online]. Available: https://doi.org/10.1145/1953122.1953144

Artículos similares

También puede Iniciar una búsqueda de similitud avanzada para este artículo.