¿Cómo aprovechar el poder de la GPU en trabajos comunes de procesamiento de datos?

Los GPUs y herramientas de computo distribuido se usan ampliamente en proyectos de IA y ML por lo general para ejecutar tareas relacionadas a redes neuronales profundas (Deep Learning). Sin embargo, en tareas regulares de ciencia de datos o para el uso de algoritmos de ML tradicional o clásico, no se utilizan tan ampliamente estos recursos.

Tratando de mejorar y ampliar la flexibilidad de ejecutar en un GPU pipelines enteros de data science y analítica, tenemos RAPIDS que fue lanzado por NVIDIA. Este conjunto de librerías se enfoca a tomar ventaja de las primitivas de CUDA y el paralelismo del GPU.

Los tres principales componentes de RAPIDS son:

CuPy: Una biblioteca de arreglos impulsada por CUDA que se ve y se siente como Numpy, mientras usa varias bibliotecas CUDA, por ejemplo, cuBLAS, cuDNN, cuRand, cuSolver, cuSPARSE, cuFFT y NCCL para aprovechar al máximo la arquitectura de GPU.

CuDF: esta es una biblioteca de GPU DataFrame para cargar, agregar, unir, filtrar y manipular datos con una API similar a pandas. Los ingenieros de datos y los científicos de datos pueden usarlo para acelerar fácilmente sus flujos de tareas utilizando potentes GPUs sin tener que aprender los detalles de la programación CUDA.

CuML: esta biblioteca permite a los científicos de datos, analistas e investigadores ejecutar algoritmos ML tradicionales / clásicos y tareas de procesamiento asociadas aprovechando al máximo la potencia de una GPU. Esta biblioteca tiende a recordarnos a Scikit-learn e intenta ofrecer compatibilidad con GPUs integrándose elegantemente con Dask para aprovechar el verdadero procesamiento distribuido.

Si deseas profundizar en el framework de RAPIDs te invitamos a nuestro workshop del 20 de noviembre, donde además de participar en una sesión en vivo de 8 horas y aprender como usarlo, recibirás una certificación en competencia de NVIDIA.

https://www.ciiia.mx/nvidia/nvidia-certification-fundamentals-of-accelerated-data-science

 PhD. María de la Paz Rico Fernández.