Text mining
En el bloque de minería de textos que forma parte del módulo «Text mining y redes sociales» del Máster en Big Data y Business Analytics de la Universidad Complutense de Madrid, se pretende instruir a los alumnos en el procesamiento de textos como forma de análisis de información no estructurada o semiestructurada.
Se estudiarán conceptos propios de este campo que tanto ha avanzado en los últimos años. Así, algunos aspectos a tratar serán la extracción de textos de distintos tipos de fuentes web, su preprocesamiento (limpieza, transformación, obtención de raíces, etc.), su exploración y su procesamiento (agrupación, modelos temáticos, minería de opiniones y análisis de sentimientos).
En el desarrollo de este bloque se utilizará el lenguaje R, pudiendo usar, en función de los intereses del alumnado, otros lenguajes adicionales como Python. Así, en base a las inquietudes de los estudiantes, podrán acceder a dos perspectivas desde distintos lenguajes de programación para llevar a cabo un trabajo de text mining.
Redes sociales y Big Data
En el segundo bloque del módulo, el de de redes sociales en relación al Big Data, se comenzaremos haciendo un análisis de las propiedades de una red social desde la perspectiva de los macrodatos (tratando aspectos diversos como la densidad, tamaño, diámetro, etcétera).
Se continuará con una clasificación de la misma, indicando claramente si estamos ante una red aleatoria o con estructura.
En tercer lugar se pasará a medir la centralidad de los distintos agentes involucrados en la red.
Para realizar todos estos análisis se utilizará el software libre PAJEK que permite el manejo de redes de distinto tamaño, incluyendo las de gran tamaño.
Así, la combinación de los dos bloques que componen el módulo, permitirán a los alumnos una visión global en relación tanto a la parte más teórica del temario como a sus aplicaciones en entornos prácticos.