Available courses

Diplomado en Impuestos, versión en línea - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Diplomado en Impuestos - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Diplomado en Impuestos - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Diplomado en Impuestos - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Diplomado en Impuestos - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Diplomado en Impuestos, versión en línea - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Diplomado en Impuestos - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Diplomado en Impuestos - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Diplomado en Impuestos - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Diplomado en Impuestos - Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Extensión Universitaria y Desarrollo Ejecutivo - ITAM

Dirección de Extensión Universitaria y Desarrollo Ejecutivo

Diplomado en Herramientas de Minería de Datos y Analítica Empresarial

Coordinador Académico: M.I. Rafael Gregorio Gamboa Hirales

 

Objetivo

El diplomado le proporciona al participante las herramientas, técnicas, habilidades y conocimientos para elaborar modelos de analítica enfocados al ámbito empresarial. Se analizan los modelos supervisados y los no supervisados y las técnicas para la transformación de datos. Para los modelos desarrollados se llevan a cabo post procesos a partir de los resultados para afinar el modelado en términos de los objetivos de negocio. Por ejemplo, para los clasificadores se determina el score de corte para los casos en que existan utilidades y costos asociados a la decisión. Se utiliza Python como herramienta general de procesamiento de datos y formación de modelos apoyándose en bibliotecas en este lenguaje o con interfaces con él. Así mismo se usa Weka por su versatilidad y facilidad para desarrollo rápido de prototipos y modelos. Se contempla la puesta en producción en Python y Weka y se analiza R como una alternativa adicional. En la revisión de las herramientas se analizan los tipos de variables involucradas para determinar la idoneidad de la herramienta y las transformaciones requeridas o posibles para optimizar la asertividad del modelo.

 

Perfil del participante

Se requiere que los participantes cuentan con habilidades en el manejo de algún sistema operativo al nivel de saber ejecutar programas, manejar archivos y carpetas, comprimir, descomprimir archivos, consultar y bajar archivos en la red, manejar hoja electrónica y tener nociones de bases de datos relacionales. Se requieren conocimientos básicos de álgebra, álgebra lineal, probabilidad y

 estadística, y nociones elementales de cálculo diferencial.

 

Modalidad de enseñanza

 

El programa se presenta en 5 módulos de 24 horas cada uno en dos sesiones de 2hrs por semana. Se exponen los temas y se llevan a cabo prácticas con tablas de volúmenes considerables de registros. De manera rutinaria el trabajo se apoya en computadora. Los estudiantes deben desarrollar trabajos extra clase para lo cual deben instalar en sus computadoras las herramientas de software para las prácticas y tareas. Al final del Módulo IV los participantes forman equipos para desarrollar un proyecto y presentarlo como trabajo final del diplomado al terminar el Módulo V.

 

Temario

 

Módulo I. Modelos Supervisados

 

Objetivo del módulo:

En este módulo los participantes comprenden los fundamentos, hipótesis y finalidad de los métodos supervisados, la manera en que se establecen los objetivos de negocio en términos de la variable objetivo y las métricas que se utilizan para evaluar la bondad de ajuste de los modelos desarrollados. Para el caso de los clasificadores se analiza el comportamiento del score de pertenencia del caso a cada una de las clases y su impacto en términos de negocio.

 

1.       Introducción a la Minería de Datos. Modelos Supervisados y Modelos no supervisados.

2.       Clasificadores. Entropía e Información. Información ganada.

3.       Métricas de bondad de ajuste. ROC y PRC. Concepto de Score de corte.

4.       Sub muestras de entrenamiento y de prueba. Validación cruzada.

5.       Bayesiano Ingenuo.

6.       CART.

7.       Regresión Logística.

8.       Máquinas de Soporte Vectorial.

9.       Redes Neuronales como clasificadores.

10.   KNN como clasificadores.

11.   Sobrecarga y compensación.

12.   Predictores. Objetivo.

13.   Modelos lineales. Correlación lineal.

14.   Regresión Lineal, medidas de bondad de ajuste.

15.   Modelos no lineales. Redes Neuronales como predictores.

16.   Árboles para regresión.

17.   KNN como predictores.

18.   Series de tiempo: modelos AR, MA y ARIMA.

 

Módulo II. Herramientas de procesamiento general de datos

 

Objetivo del módulo:

Proporcionarle al participante las herramientas básicas de programación para el tratamiento de datos a nivel de detalle y para manejar arreglos, series y dataframes en Python. Con ello se establece una plataforma general para la adquisición y procesamiento de datos. Se analizan los métodos generales para procesar tablas por medio de dataframes en pandas.

 

1.       Programación en Python, datos, colecciones y su procesamiento. Iteraciones explícitas e implícitas.  

2.       Numpy,  pandas, seaborn  y matplotlib.  

3.       Estructura del dataframe. Índices y Columnas.

4.       Importación y exportación de datos. Codificación.

5.       Métodos de consolidación de información. Limpieza y transformación de datos.

6.       Selección de registros. Funciones lambda. Mutación de valores. Concatencación y merge. Agrupamientos y tablas pivote.

7.       Visualización de datos.

8.       Herramientas de Web Scraping

9.       Herramientas para el análisis exploratorio de datos. Ejecución de R y Python en RStudio

10.   Generación de documentos con el resultado de las ejecuciones. RMarkdown.

 

Módulo III. Modelos No Supervisados y Transformación de Datos

 

Objetivo del módulo:

El participante comprende los fundamentos y objetivos de los modelos de asociación y la manera en que se derivan y usan las reglas de asociación. Se analizan las métricas aplicables a estos modelos y sus implicaciones para el negocio. Se revisan las principales técnicas para elaborar modelos de agrupamiento y se revisan los criterios para formar el número adecuado de grupos.  Se revisa cómo con ayuda de los clasificadores se analiza el contenido de los grupos resultado de un agrupamiento dado y el impacto para el negocio.

 

1.       Definición, motivación y panorama del aprendizaje no supervisado.

2.       Modelos de asociación: A priori, Eclat, FPGrowth.

3.       Modelado y descripción de grafos.

4.       Minería e interpretación de grafos.

5.       Agrupamiento: dendogramas and Ward.

6.       Agrupamiento: KNN y DBSCAN, métricas.

7.       Reducción de dimensionalidad: PCA.

8.       Reducción de dimensionalidad: tSNE.

9.       Reducción de dimensionalidad: proyecciones.

10.   Mapas auto organizativos (SOM’s).

11.   Detección de anomalías.

12.   Redes neuronales no supervisadas (auto supervisadas).

 

Módulo IV. Procesamiento y Análisis de Texto.

 

Objetivo del módulo:

 

Analizar las problemáticas derivadas de la construcción de modelos para tratamiento de texto. Se configuran procesamientos para extraer información para elaborar el análisis de textos y utilizar esta información con los modelos supervisados y no supervisados vistos en los métodos previos. Se comprende la finalidad del análisis de texto en función del objetivo particular.

 

1.       Captura de datos en páginas web.

2.       Captura de tweets.  

3.       Corpus. Proceso general de detección de asociación de términos. Medidas de relevancia.

4.       Matriz de Documentos – Términos. Búsqueda de narrativas.

5.       Expresiones regulares para las narrativas.

6.       Variables Indicadoras de narrativas para clasificadores, predictores, asociaciones o conglomerados. Puesta en producción de detección de narrativas en textos.

7.       Herramientas disponibles para lenguaje hablado. Explotación de datos para chabots.

8.       Bolsa de palabras. Tf-idf.

9.       N-grams.

10.   Embeddings.

11.   Análisis de sentimientos.

Módulo V. Sistemas de Recomendación. Uso de herramientas en la nube.

 

Objetivo del módulo:

Los sistemas de recomendación constituyen una de las herramientas comerciales más importantes actualmente. De ahí la importancia de su estudio y que el participante pueda llevar a cabo los modelos para este fin.

 

1.       Los sistemas de recomendación.

2.       Análisis de “clientes”, y su comportamiento.

3.       Conformación de agrupamientos y asociación de “ítems”.

4.       Procesamiento en flujo.

5.       Ejemplos en R para proceso de datos.

6.       Bibliotecas equivalentes para modelos supervisados y no supervisados.

7.       Procesamiento de matrices dispersas.

8.       Datos en la nube y herramientas en nube.

9.       Prácticas con herramientas en nube para desarrollo de modelos.

10.   Avance y presentación del proyecto.

 

Sobre el Coordinador:

El M.I. Rafael Gregorio Gamboa Hirales cursó la licenciatura en Física y Matemáticas en la Escuela Superior de Física y Matemáticas del IPN (1983). Laboró en el Instituto Nacional de Energía Nuclear  (hoy ININ) de 1977 a 1983 desarrollando modelos numéricos en software para diversos cálculos. Varios de tales modelos se continúan utilizando habiendo sido transformados a lenguajes actuales. Destacan el cálculo de irradiación para material expuesto en un cuarto de irradiación de gammas producidas por desintegración de cobalto 60 y el cálculo de la intensidad del movimiento de la arena en el lecho marino del puerto para carga de buque tanques de Dos Bocas en Tabasco.  Colaboró en la escuela Superior de Ingenieros de Telecomunicaciones de La Universidad Politécnica de Madrid en la elaboración de prototipos para los codificadores de voz para la telefonía celular en 1991-1992. De esta última escuela obtuvo el grado de Maestro de Ingeniería en Telecomunicaciones. Ha laborado desde 1983 como profesor de tiempo completo en el Departamento Académico de Computación de la División de Ingeniería del ITAM, habiéndole correspondido participar en la conformación de los planes de la Ingeniería en Computación, primer plan de Ingeniería que brindó la institución.

El profesor Gamboa ha colaborado en proyectos para la Secretaría de Hacienda en 1993-1994 conformando el prototipo del sistema automatizado de cálculo de ISR para personas morales. Para ProceSar participó en la determinación de la cantidad de cuentas duplicadas en el Sistema de Cuentas de Ahorro para el retiro. Ha colaborado con instituciones financieras y bancarias en la elaboración de modelos de detección de riesgo y detección de fraude. Actualmente continúa con sus actividades docentes y colaborando con instituciones públicas, privadas y asociaciones de empresas en la conformación de modelos y metodologías para la conformación de índices para estudiar la evolución de indicadores de interés.

Como docente ha propuesto varias materias en el ámbito de la programación, procesamiento de datos por medio de plataformas distribuidas y aplicaciones de las Tecnologías de Información. Ha desempeñado en varias ocasiones cargos de funcionario académico en la División de Ingenierías del ITAM.