Propuesta de almacenamiento y

procesamiento de datos

Equipo 5

Nombres y Matrículas

Ulises Orlando Carrizalez Lerín A01027715

Mónica Monserrat Martínez Vásquez A01710965

María José Soto Castro A01705840

Tomás Pérez Vera A01028008

Grant Nathaniel Keegan A01700753

Bárbara Paola Alcántara Vega A01799609

TC3006C.101

Inteligencia artificial avanzada para la ciencia de datos II (Gpo 501)

Índice

Introducción..............................................................................................................................3 Contexto del reto...................................................................................................................... 3 Herramientas y tecnologías..................................................................................................... 4 Propuestas de almacenamiento............................................................................................... 4 Propuesta local...................................................................................................................................4 Diagrama de arquitectura............................................................................................................5 Propuesta con servidor AWS.............................................................................................................5 Diagrama de arquitectura............................................................................................................6 Diccionario de datos....................................................................................................................6 Diagrama MER........................................................................................................................... 7 Diagrama UML...........................................................................................................................8 Costos y beneficios de la propuesta............................................................................................8 Análisis de enfoque orientado a Big Data......................................................................................... 8 Ciclo de vida de los datos.......................................................................................................10 Extracción........................................................................................................................................10 Limpieza..........................................................................................................................................10 Transformación................................................................................................................................10 Integración.......................................................................................................................................10 Separación para modelado...............................................................................................................11 Carga................................................................................................................................................11 NOTA.......................................................................................................................................................11

2

Introducción

El presente reto, es un proyecto de ciencia de datos MuuMetrics, con el propósito de desarrollar un sistema en minería de datos y análisis de imágenes digitales, para evaluar el Body Condition Score (BCS) de las vacas pertenecientes al corral seis del Centro Agro Experimental del Tecnológico de Monterrey (CAETEC).

Haciendo uso de una base de datos de 57,780 imágenes capturadas tras las sesiones de ordeño automático, se plantea el desarrollo de un modelo de aprendizaje profundo, que logre la clasificación del estado corporal de las vacas acorde a una estimación automática de su respectivo BCS, siendo esta una herramienta de apoyo y no de diagnóstico. El alcance del presente proyecto, radica en la mejora de la eficiencia operativa; reducir pérdidas por enfermedades y promover el bienestar animal, sustituyendo la evaluación manual y subjetiva del BCS por un método objetivo y automatizado.

Acorde a la naturaleza del proyecto, se planteó un objetivo de negocio para su desarrollo, el cual es determinar el estado de salud y condición corporal de vacas lecheras del corral seis del CAETEC, del cual se desprende un objetivo de minería de datos, que establece se deben categorizar vacas según su BCS y días en leche (DEL) mediante modelos de aprendizaje automático, donde los principales criterios de éxito radican en obtener una precisión mínima del 80%, y mantener errores estadísticos controlados. Para un mayor entendimiento del presente proyecto, consultar el siguiente documento: