Abstracto

Minería de datos 2016: Alineación y convergencia del descubrimiento de conocimiento y HPC - Thomas Sterling - Universidad de Indiana

Thomas Sterling

El análisis de datos en sus diversas formas se ha expandido rápidamente para interactuar con dominios de aplicación científicos, industriales y sociales. Pero a medida que más espacios problemáticos ceden ante este género de computación en expansión, la demanda de capacidades se expande. Al mismo tiempo, los sistemas y métodos de computación de alto rendimiento (HPC) están experimentando un cambio significativo en forma y rendimiento con la convergencia asintótica con el tamaño de las características de los semiconductores a escala nanométrica y, por lo tanto, el fin de la ley de Moore, incluso con un rendimiento a exaescala previsto para los primeros años de la próxima década. Históricamente, estos dos dominios de procesamiento son en gran medida independientes, pero ahora un consenso creciente los está impulsando a unirse, alineando sus respectivas modalidades y catalizando una convergencia sinérgica. Una premisa importante: la Orden Ejecutiva Presidencial que resultó en la Iniciativa Nacional de Computación Estratégica estipula que la fusión de datos masivos y computación numérica intensiva sea un componente de la carta nacional de exaescala. Esta presentación describirá los muchos cambios en la arquitectura de sistemas y metodologías operativas que serán necesarios para responder simultáneamente a los desafíos de la parte superior de la ley de Moore y los enfoques de procesamiento de gráficos, potencialmente dinámicos que aumentarán la computación orientada a matrices y vectores más convencional. Se discutirá la probable importancia de la gestión dinámica adaptativa de recursos y la programación de tareas esenciales para mejoras espectaculares en la escalabilidad y eficiencia para la computación a exaescala y la forma en que estos cambios se aplicarán al descubrimiento de conocimiento. Para responder a las preguntas científicas cada vez más complejas e intensivas en datos de hoy en día en las ciencias experimentales, observacionales y computacionales, estamos desarrollando métodos en tres áreas de I+D interrelacionadas: (i) Estamos creando nuevos métodos de análisis de datos escalables capaces de ejecutarse en plataformas computacionales de gran escala para responder a líneas de investigación científica cada vez más complejas. (ii) Nuestros nuevos patrones de diseño computacional para métodos de análisis clave ayudarán a los investigadores científicos a aprovechar al máximo las tendencias en rápida evolución en la tecnología computacional, como el aumento de núcleos por procesador, jerarquías de memoria y almacenamiento más profundas y plataformas computacionales más complejas. Los objetivos clave son el alto rendimiento y la portabilidad entre las plataformas computacionales del DOE. (iii) Al combinar métodos de análisis y procesamiento en canales de datos para su uso en plataformas HPC a gran escala, ya sea de forma independiente o como parte integral de un flujo de trabajo científico más amplio, estamos maximizando las oportunidades de analizar datos científicos utilizando una colección diversa de herramientas de software y recursos computacionales. A pesar del enorme progreso logrado en imágenes biológicas que ha producido tomografías con resoluciones cada vez más altas, la segmentación de tomografías celulares en orgánulos y proteínas sigue siendo una tarea desafiante. La dificultad es más extrema en el caso de la tomografía crioelectrónica (crio-ET),donde las muestras exhiben un contraste inherentemente bajo debido a la dosis limitada de electrones que se puede aplicar durante la obtención de imágenes antes de que se produzcan daños por radiación. Las tomografías tienen una baja relación señal-ruido (SNR), así como artefactos de cuña faltante causados ??por el rango limitado de inclinación de la muestra al que se puede acceder durante la obtención de imágenes. Si bien la SNR se puede mejorar aplicando métodos de mejora del contraste y detección de bordes, estos algoritmos también pueden generar conectividad falsa y artefactos adicionales que degradan los resultados producidos por los programas de segmentación automática. Si se pueden superar los desafíos, los enfoques de segmentación automática son de gran interés. Sin embargo, el logro de esta visión se ve impedido hoy en día por la complejidad de la muestra y las limitaciones de la SNR descritas anteriormente. Los resultados de aprendizaje automático de última generación generalmente no son adecuados para la minería profunda; de hecho, la situación en crio-ET es todo lo contrario: las segmentaciones de mayor calidad se producen a mano, lo que representa niveles de esfuerzo que van desde días hasta meses. Las herramientas de segmentación podrían mejorarse enormemente si se construyeran para tener en cuenta el conocimiento previo, minimizando la sensibilidad al ruido y la conexión falsa. Hasta donde sabemos, no existen métodos que utilicen información contextual específica sobre las estructuras biológicas como restricciones para la segmentación. Tampoco existen enfoques que incorporen el aprendizaje activo con retroalimentación del usuario, lo que proporcionaría orientación sobre la corrección de la segmentación. Estamos desarrollando nuevas técnicas de aprendizaje automático para facilitar la segmentación, extracción, visualización y anotación de subestructuras biológicas dentro de tomografías 3D obtenidas a partir de una variedad de modalidades de imágenes.Tampoco existen enfoques que incorporen aprendizaje activo con retroalimentación del usuario, lo que proporcionaría orientación sobre la corrección de la segmentación. Estamos desarrollando nuevas técnicas de aprendizaje automático para facilitar la segmentación, extracción, visualización y anotación de subestructuras biológicas dentro de tomografías 3D obtenidas a partir de una variedad de modalidades de imágenes.Tampoco existen enfoques que incorporen aprendizaje activo con retroalimentación del usuario, lo que proporcionaría orientación sobre la corrección de la segmentación. Estamos desarrollando nuevas técnicas de aprendizaje automático para facilitar la segmentación, extracción, visualización y anotación de subestructuras biológicas dentro de tomografías 3D obtenidas a partir de una variedad de modalidades de imágenes.

Biografía:

Thomas Sterling es profesor de Ingeniería de Sistemas Inteligentes en la Escuela de Informática y Computación de la Universidad de Indiana. Se desempeña como científico jefe y director asociado del Centro de Investigación en Tecnologías de Escala Extrema (CREST). Después de recibir su doctorado del MIT en 1984 como becario Hertz, se ha dedicado a campos de investigación asociados con las estructuras y la semántica de los sistemas de computación paralela. Es coautor de 6 libros y posee 6 patentes. Fue galardonado con el premio Vanguard en 2013.

Descargo de responsabilidad: este resumen se tradujo utilizando herramientas de inteligencia artificial y aún no ha sido revisado ni verificado.

Indexado en

Google Académico
Academic Journals Database
Open J Gate
Academic Keys
ResearchBible
CiteFactor
Biblioteca de revistas electrónicas
Búsqueda de referencia
Universidad Hamdard
director académico
Factor de impacto de revistas innovadoras internacionales (IIJIF)
Instituto Internacional de Investigación Organizada (I2OR)
Cosmos

Ver más