Abstracto

Aprendizaje automático con Spark

Andrey N. Plyushchenko

Spark es una de las herramientas más populares para la manipulación eficaz de Big Data con lenguajes de alto nivel como Python, Scala, etc. PySpark es una biblioteca de Python para el uso de Spark. Aunque Spark incluye una biblioteca de algoritmos de aprendizaje automático, las bibliotecas de máquinas locales más populares, como SKLearn, XGBoost, etc., son más flexibles y dan los mejores resultados. Describimos algunas técnicas que permiten ajustar algoritmos estándar y predecir valores para datos distribuidos. Apache Spark es un sistema de registro de grupos de código abierto. Inicialmente creado en el AMPLab de la Universidad de California, Berkeley, la base de código Spark se entregó más tarde a la Apache Software Foundation, que lo ha mantenido desde entonces. Flash proporciona una interfaz para programar grupos completos con cierto paralelismo de información y adaptación a fallas no críticas. Apache Spark ML es la biblioteca de IA que comprende cálculos y utilidades de aprendizaje normal, que incluyen agrupamiento, recaída, agrupamiento, separación sinérgica, disminución de dimensionalidad y mejoras ocultas nativas. Pasar a la era del Big Data requiere cálculos iterativos sustanciales en grandes conjuntos de datos. El uso estándar de los cálculos de IA requiere máquinas extremadamente avanzadas para poder ejecutarse. Depender de máquinas de última generación no es beneficioso debido a su alto costo y los costos de escalado imprudentes. El uso de motores de cálculo distribuidos consiste en distribuir los cálculos a varias máquinas de gama baja (equipos de software) en lugar de a una sola de gama alta. Esto ciertamente acelera la etapa de aprendizaje y nos permite crear mejores modelos. A medida que las organizaciones crean productos y servicios de datos cada vez más diversos y más centrados en el cliente, existe una creciente necesidad de IA, que se puede utilizar para crear personalizaciones, sugerencias y fragmentos de datos de visión. Por lo general, los investigadores de datos pueden abordar estos problemas utilizando herramientas conocidas y populares, como R y Python. Sin embargo, a medida que las organizaciones almacenan volúmenes y colecciones de datos más importantes, los investigadores de datos están invirtiendo una mayor parte de su energía en respaldar su base en lugar de desarrollar los modelos para resolver sus problemas de datos. Para ayudar a solucionar este problema, Spark ofrece una biblioteca de IA completa, MLlib, que está diseñada para la facilidad de uso, la adaptabilidad y la integración sencilla con otras herramientas. Con la adaptabilidad, la compatibilidad de lenguajes y la velocidad de Spark, los investigadores de datos pueden comprender y repetir sus problemas de datos más rápidamente. Como se puede ver tanto en la creciente variedad de casos de uso como en la enorme cantidad de compromisos de los desarrolladores, la adopción de MLlib está creciendo rápidamente. Python y R son lenguajes populares para los investigadores de datos debido a la gran cantidad de módulos o paquetes que están disponibles de inmediato para ayudarlos a resolver sus problemas de datos. Sin embargo,Los usos convencionales de estas herramientas suelen ser restrictivos, ya que procesan la información en una sola máquina donde la creación de datos se vuelve tediosa, la investigación requiere un análisis (que a menudo no se relaciona exactamente con los datos) y pasar de las condiciones de desarrollo a las de producción requiere una amplia reestructuración. Para ayudar a resolver estos problemas, Spark proporciona a los arquitectos de datos e investigadores de datos un motor increíble y compacto que es rápido (100 veces más rápido que Hadoop para el manejo de datos de gran alcance) y fácil de usar. Esto permite a los profesionales de la información manejar sus problemas de IA (como el cálculo de gráficos, la transmisión y el manejo continuo de consultas intuitivas) de manera inteligente y a una escala mucho mayor.

Descargo de responsabilidad: este resumen se tradujo utilizando herramientas de inteligencia artificial y aún no ha sido revisado ni verificado.

Indexado en

Google Académico
Academic Journals Database
Open J Gate
Academic Keys
ResearchBible
CiteFactor
Biblioteca de revistas electrónicas
Búsqueda de referencia
Universidad Hamdard
director académico
Factor de impacto de revistas innovadoras internacionales (IIJIF)
Instituto Internacional de Investigación Organizada (I2OR)
Cosmos

Ver más