Wolfgang Orthuber
Es de destacar que la representación de la información en la web puede mejorarse definitivamente, por lo que hay un montón de propuestas para ello. Sin embargo, no hay muchas posibilidades si queremos la máxima eficiencia. La máxima eficiencia de la estructura de datos básica es atractiva para limitar los costos. En este breve compromiso, debemos revisar http://arxiv.org/abs/1406.1065 que muestra que la interpretación eficiente y uniforme de los datos en línea es posible utilizando la estructura de datos básica. Esta combinación de una URL con números se llama "Vector de dominio" (DV) y está disponible. Todos los DV con la misma URL forman un espacio de medición llamado "Espacio de dominio" (DS). La "definición en línea" caracteriza de manera coherente (normalizada) el DS y con él todos los DV incluidos. Un DV puede representar absolutamente todos los datos determinables, desde una simple palabra hasta datos multidimensionales complejos, por ejemplo, en ciencia, medicina, industria. http://numericsearch.com muestra un par de modelos y exhibe la capacidad de búsqueda. La definición en línea puede ser multilingüe, pero la importancia de los DV es libre de idioma. Los DV son globalmente uniformes y equivalentes, permiten una búsqueda de comparación caracterizada en todo el mundo. Los usuarios crean las definiciones en línea y con esto los modelos de búsqueda. La URL encuentra la definición y se puede condensar. Las definiciones existentes en línea se pueden reutilizar en nuevas definiciones, con el objetivo de que la búsqueda en varios DS sea posible. Una de las siguientes etapas es la garantía del estándar específico para las definiciones de DS. Cada individuo que percibe la capacidad de la estructura de información anterior y que necesita mejorar la eficacia de la representación de la información en la web es bienvenido a contribuir. El rastreo web ha adquirido una enorme importancia en los últimos tiempos y está adecuadamente conectado con el generoso avance de la World Wide Web. Los motores de búsqueda web enfrentan nuevos desafíos debido a la disponibilidad de grandes cantidades de registros web, lo que hace que los resultados recuperados sean menos importantes para los analizadores. Sin embargo, en los últimos tiempos, el rastreo web se centra exclusivamente en obtener los enlaces de los informes relacionados. En la actualidad, existen diferentes cálculos y programas que se utilizan para extraer enlaces de la web que deben prepararse adicionalmente para un tiempo posterior, lo que aumenta la sobrecarga del analizador. Este documento se centra en extraer los enlaces y recuperar todos los datos relacionados con ellos para facilitar la preparación para diferentes usos. En este documento, de entrada, los enlaces se extraen de la URL predefinida utilizando una variante modificada del algoritmo de búsqueda en profundidad que tiene en cuenta el análisis de varios niveles de comparación de enlaces web. A continuación, se accede a los enlaces a través del código fuente y se separan sus metadatos, como el título, las palabras clave y la descripción.Esta sustancia es extremadamente fundamental para el trabajo de análisis que se realizará sobre el Big Data adquirido gracias al Web Crawler.