{rfName}
A

Indexado en

Licencia y uso

Altmetrics

Grant support

We appreciate all anonymous reviewers at Middleware'22, who provided insightful feedback that makes this paper much stronger. This work has been partially supported by EU (No. 825184) and Spanish Government (No. PID2019-106774RB-C22). Marc SanchezArtigas is a Serra Hunter Fellow.

Análisis de autorías institucional

Sanchez-Artigas, MarcAutor (correspondencia)Eizaguirre, German TAutor o Coautor

Compartir

Publicaciones
>
Conferencia Publicada

A Seer Knows Best: Optimized Object Storage Shuffling for Serverless Analytics

Publicado en:Proceedings Of The Twenty-Third Acm/Ifip International Middleware Conference, Middleware 2022. 148-160 - 2022-01-01 (), DOI: 10.1145/3528535.3565241

Autores: Sanchez-Artigas, Marc; Eizaguirre, German T

Afiliaciones

Univ Rovira & Virgili, Tarragona, Spain - Autor o Coautor

Resumen

Serverless platforms offer high resource elasticity and pay-as-you-go billing, making them a compelling choice for data analytics. To craft a "pure" serverless solution, the common practice is to transfer intermediate data between serverless functions via serverless object storage (IBM COS; AWS S3). However, prior works have led to inconclusive results about the performance of object storage, since they have left large margin for optimization. To verify that object storage has been underrated, we design a novel shuffle manager for serverless data analytics termed Seer. Specifically, Seer dynamically chooses between two shuffle algorithms to maximize performance. The algorithm choice is based on some predictive models, and very importantly, without users having to specify intermediate data sizes at the time of the job submission. We integrate Seer with PyWren-IBM [31], a serverless analytics framework, and evaluate it against both serverful (e.g., Spark) and serverless systems (e.g., Google BigQuery). Our results certify that our new shuffle manager can deliver performance improvements over them.

Palabras clave

I/o optimizationObject storageServerless computingShuffle

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

Desde una perspectiva relativa, y atendiendo al indicador del impacto normalizado calculado a partir del Field Citation Ratio (FCR) de la fuente Dimensions, arroja un valor de: 2.9, lo que indica que, de manera comparada con trabajos en la misma disciplina y en el mismo año de publicación, lo ubica como trabajo citado por encima de la media. (fuente consultada: Dimensions Jun 2025)

De manera concreta y atendiendo a las diferentes agencias de indexación, el trabajo ha acumulado, hasta la fecha 2025-06-23, el siguiente número de citas:

  • WoS: 6
  • OpenCitations: 5

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2025-06-23:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 3 (PlumX).

Análisis de liderazgo de los autores institucionales

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (Sanchez Artigas, Marc) y Último Autor (Eizaguirre Suárez, Germán Telmo).

el autor responsable de establecer las labores de correspondencia ha sido Sanchez Artigas, Marc.