Abstracto

Minería de datos 2016: creación de redes de palabras basadas en clústeres a partir de datos textuales - Han-joon Kim - Universidad de Seúl

Han Joon Kim y Han Mook Ryu

Este artículo describe otro método para extraer sistemas de palabras cada vez más importantes de la información literaria mediante la combinación de agrupamiento de texto y procedimientos de asociación de palabras clave. Básicamente, uno de los puntos de vista urgentes en la minería de texto es el estudio de las conexiones de ideas, donde las ideas surgen de las palabras clave. El problema es encontrar una combinación cada vez más lógica de palabras clave y sus conexiones, denominada "red de palabras". En general, los sistemas de palabras se pueden trabajar utilizando la recurrencia de coeventos de palabras registradas. Sin embargo, la recurrencia de coeventos por sí sola no es suficiente para medir la calidad de la relación entre las palabras, ya que se pasan por alto las relaciones significativas con una recurrencia generalmente baja. En nuestro trabajo, para resolver el problema, planeamos realizar la tarea de asociación de palabras sobre los resultados agrupados de los registros futuros en lugar de un archivo completo. En lugar de construir una clasificación de palabras a partir de toda la colección de archivos, probablemente separará las relaciones de palabras cada vez más importantes de los resultados agrupados de los registros. Nuestra técnica propuesta se lleva a cabo de forma extensa en dos etapas: en primer lugar, una colección de registros determinada se divide en muchos grupos, cada uno de los cuales se representa como un árbol de cruce de base mediante la extracción de afiliación anterior. Aquí, observamos que cada grupo contiene muchos registros con ejemplos de eventos de palabras similares, y por lo tanto tendría palabras específicas del grupo y sus afiliaciones sólidas. De esta manera, como una etapa posterior, nuestra técnica calcula de forma iterativa datos comunes ponderados que evalúan el nivel de importancia entre dos centros de palabras y concentra las N palabras principales principales y sus afiliaciones de declaración ocultas en cada grupo. La agrupación y agrupación de contenido libre es un avance importante hacia su uso. Presentamos un cálculo para la técnica de agrupación de contenido individual que permite a las empresas contener automáticamente estos datos. En este arreglo de dos secciones, investigaremos la agrupación de texto y cómo obtener fragmentos de datos de información no estructurada. Será de una calidad muy increíble y moderna. La primera sección se centrará en la inspiración. La siguiente sección será sobre la ejecución. Esta publicación es el segmento inicial de la serie de dos secciones sobre la mejor manera de obtener fragmentos de datos de información no estructurada mediante la agrupación de texto. Lo ensamblaremos de manera mesurada para que pueda aplicarse a cualquier conjunto de datos. Además, también nos concentraremos en descubrir las funcionalidades como API para que pueda funcionar como un modelo adecuado y funcional sin interrupciones en los sistemas actuales. Agrupamiento de texto: cómo obtener fragmentos de datos rápidos de datos no estructurados - Parte 1: la motivación. Agrupamiento de texto: cómo obtener fragmentos de datos rápidos de datos no estructurados - Parte 2: la implementación El manejo de datos no estructurados Las asociaciones actuales se basan en grandes cantidades de datos y, lamentablemente,Una gran parte de ella no tiene una naturaleza estructurada. Existe una gran cantidad de información en forma de texto de flujo libre que vive en nuestros almacenes de información. Si bien existen numerosas estrategias lógicas establecidas que ayudan a procesar y analizar información organizada (por ejemplo, numérica), existen menos estrategias que se centren en descomponer la información del lenguaje común. La solución: para superar estos problemas, diseñaremos un enfoque de agrupamiento de libros sin ayuda que permita a las empresas receptar automáticamente esta información. Estos contenedores se generan automáticamente en función de la comprensión de la información por parte del cálculo. Esto ayudaría a reducir el volumen de la información y comprender el rango más amplio fácilmente. Entonces, en lugar de intentar comprender una gran cantidad de columnas, tiene sentido comprender las palabras clave principales en alrededor de 50 grupos. En base a esto, se abre un universo de posibilidades: en un módulo de servicio al cliente, estos agrupamientos ayudan a identificar los problemas principales y pueden convertirse en temas de mayor concentración o automatización. Las auditorías de los clientes sobre un artículo o marca específicos se pueden resumir, lo que realmente sentará las bases para la asociación. La información de las revisiones se puede dividir sin esfuerzo. Los currículos y otra información no estructurada en el mundo de RR.HH. se pueden ver fácilmente. Esta lista es interminable, pero el propósito del centro es un cálculo de IA no exclusivo que puede ayudar a inferir fragmentos de conocimiento en una estructura amigable a partir de enormes piezas de contenido no estructurado.Esta lista es interminable, pero el objetivo del centro es un cálculo de IA no exclusivo que puede ayudar a inferir fragmentos de información en una estructura amigable a partir de grandes fragmentos de contenido no estructurado.Esta lista es interminable, pero el objetivo del centro es un cálculo de IA no exclusivo que puede ayudar a inferir fragmentos de información en una estructura amigable a partir de grandes fragmentos de contenido no estructurado.

Biografía:

Han-joon Kim obtuvo su licenciatura y maestría en Ciencias de la Computación y Estadística en la Universidad Nacional de Seúl, Seúl, Corea, en 1994 y 1996, respectivamente. Obtuvo su doctorado en Ciencias de la Computación e Ingeniería en la Universidad Nacional de Seúl, Seúl, Corea, en 2002. Actualmente es profesor en la Escuela de Ingeniería Eléctrica e Informática de la Universidad de Seúl, Corea. Sus actuales intereses de investigación incluyen la minería de datos y texto, los sistemas de bases de datos y la recuperación inteligente de información.

Descargo de responsabilidad: este resumen se tradujo utilizando herramientas de inteligencia artificial y aún no ha sido revisado ni verificado.

Indexado en

Google Académico
Academic Journals Database
Open J Gate
Academic Keys
ResearchBible
CiteFactor
Biblioteca de revistas electrónicas
Búsqueda de referencia
Universidad Hamdard
director académico
Factor de impacto de revistas innovadoras internacionales (IIJIF)
Instituto Internacional de Investigación Organizada (I2OR)
Cosmos

Ver más