Ir al contenido principal

Web Mining

WM: es la aplicacion de tecnicas de data mining para la extracción de informacion de los datos web, usando datos estructurales (hyperlinks), y de uso (web logs), utilizando o no otros tipos de datos web.

WUM: es el proceso de extraccion de patrones de uso de la web, para comprender a los usuarios y mejorar las aplicaciones web

WCM: es el proceso de extraccion de la informacion del contenido de los documentos web

WSM: es el proceso de extraccion de la informacion de la topologia de la web en funcion de los hipervinculos entre las paginas


PARTES DE LA WEB:
DINAMICA VS ESTATICA:
que se modifica segun las acciones del usuario, y la otra no
OCULTA VS PUBLICA:
no se encuentra en los buscadores y la otra si
INVISIBLE Y SEMANTICA:
intranets o acceso restringido
contiene los metadatos de las paginas, no muy usada porque predominan los spamming de metadatos (info falsa)
INDIZABLE: usada por los buscadores (estatica publica y un poco de dinamica)



ESTRUCTURA MACROSCOPICA DE LA WEB:

ENTRADA - NUCLEO - SALIDA -tentaculos: caminos sin salida
E: pags q llegan al nucelo (S: pags q salen del nucleo (N: aquellas consolidadas, xa toda pag existe un camino
Tubos: desde entrada a la salida
ISLAS: estan desconectadas, no hay forma de salir a otra pag o de llegar a ellas


FASES PARA EL DISEÑO DE UN SITIO WEB:
necs esperadas
DISEÑO: USO:

arq de la infn usabilidad
(Dis de la (satisfaccion del usuario)
contenido y forma
del sitio)
ubicuidad usage mining
(facilidad xa encontrar (determinacion de patrones de uso)
un sitio)
necs demos

WEB SERVER LOGS:

REFLEJAN LOS ACcesos de los usuarios sober un web site
tanto los ficheros de bitacora o registros (logs) son de formato comun o extendido


IP: es una direccion de Internet para identificar al cliente solicitante o el servidor

status: codigo numerico que corresponde al procesamiento de request de usuario exitoso o no

Referer: String con la direccion origen del request http

HITS VS FILES VS PAGES
total de hits solo codigo 200 solo tipo html

COMPONENTES OFFLINE DE
Preparacion de datos y de descubrimiento de patrones:

......................................................ANAL(pats**)-> perfAgrUso
Estructura & Conten (WS & APP LOGS) |
del sitio | PATRONES
+ ...> Preprocsamiento(datos)* |
Conocimiento |
del Dominio (BD usuarios) USAGE MINING***
...................

*: depuracion, id de pageviews, id de sesiones, integracion y transformacion de datos
**: Filtardo de datos, Agregacion, Caracterizacion
***: Clustering(transcs,pageviews),
Analisis(correlacion),
Reglas(AsociN de Mineria),
PatrON secuencial de Mineria.

PX(Preparacion de datos) requiere mucho tiempo porque involucra preprocesar los datos originales,integracions de diversas fuentaes y transformacion para operaciones de data mining.


DATOS DE USO: los datos de los logs deben ser transformados y agregados en distintos
niveles de abstraccion:
>EN WUM, el nivel mas basico es la PAGEVIEW= coleccion agregada de objetos web que se muestran en el explorador del usuario. Es un TIPO de actividad que realiza el usuario
>A Nivel de usuario, el nivel mas basico es La SESION= que es una visita, realizada por un unico usuario en un sitio web. En si, es una >>>secuencia de Pageviews<<<<

DATOS DE CONTENIDO: COLECCION de Objetos y Relaciones transmitidas al usuario.
Incluye archivos web como html, imagenes, video, sonido, regs de bd, tanto generado estatica como dinamicamente.
Contiene tambien: > metadata estructural o semantica embebido en las paginas
> ontologia del dominio;modelo conceptual tanto explicito como implicito,xej:estructura jerarquica del directorio web

DATOS DE ESTRUCTURA: REPRESENTA la Vista del diseñador del CONTENIDO de la ORGN en el sitio-intrapaginas(1pag,html/xml) e interpaginas(entre pags,hiperlinks)
Se caputra en forma automatica xmedio del "mapa del sitio" = estructura de hypelks


DATOS DE USURIO: se encuentran en las BD operacionales.
Incluye ranking de usuarios (sobre pags x ej), info demografica (u otra info), y otros
intereses implicitos o explicitos de los usuarios . =>perrfiles de usuarios detectados en forma anonima o no.


PREPARACION DE LOS DATOS DE USO = depuracion, identificacion de pageview,usuarios,sesiones e inferencia de referencias perdidas + ID de transacciones = episodio


TAREAS DEL PROCESO DE WEB MINING:
> DESCUBRIMIENTO DE RECURSOS: localizar recursos desconocidos, archivos, servicios,etc
> EXTRACCION DE INFORMACION: info relevante, y minimizar la no relevante
> GENERALIZACION: desccubrir patrones
> ANALISIS: de informacion UTIL; los usuarios del CONOCIMIENTO deben Compreneder, Visualizar E INTERPRETAR los patrones


Absn de datos: SESION DE USUARIO = es el clickstream que realiza un usuario sobre pageviews a lo largo del recorrido del website. Se forma a partir de los web logs y se obtiene solo una parte x carencia de informacion

IDn de Sesiones:
1) agente+ip= if (ag= & ip=) supera deltaT=x => new sesion
else => new sesion
2) idn de sesiones embebida
3) Registros, cookies, agentes de sw



CLASIFICACION DE WM segun
*METODOS DE ANALIS______> estadistica exploratoria / descriptiva
______>OLAP (DATA WHAREHOUSE)
______>DATA MINING: reglas de asociacion, secuencia de patrones, estimacion, clustering, clasificacion, modlto(deps)



*CENTRO DE ANALISIS__> SITIO: monosite
___> USUARIO: multiSite


*OBJETIVO DE ANALISIS(FINAL)__> SATISFACCION DEL USUARIO
__> SATISFACCION DEL PROMOTOR-- Objetivo UNICO
-- MultObj (con 1pto vista o n ptos de vista)




PX DE WM:
(Datos web)->[Descub(recs)]->[Extracc Info]->[Generaln]->[Anal]->(conocto)


ETAPAS DEL MODELO CRISP-DM:
[Comprension(N)]> o sea del Problema
[Comprension(Datos)]> get,descubrir,explorar & verificar
[Preparacion(datos)]> select,depurar,construir,integN & formateo
[Modelado]> Tecnicas, dis(prs), constrN & evaLn(Mods).
[Evaluacion]> de los resulados y determinar ACCION SIGUIENE
[DESARROLLO] > IMPLN, Sgto & Manto



AReas de aplicacion de WUM:

>Motores de Busquda: sys.informatico q indexa los archivos de sitios web
>e-Commerce: compra y vta de pds o svs via email (internet)
>Diseño Web: Pln, Dis e impln de pags web
>Posicto Web: appn de algortimos para ponderar las paginas indexadas en los motores de busqueda
>Segd: opertivamente, integridad y privacidad















Comentarios