Propuesta de almacenamiento y
procesamiento de datos
Equipo 5
Nombres y Matrículas
Ulises Orlando Carrizalez Lerín A01027715
Mónica Monserrat Martínez Vásquez A01710965
María José Soto Castro A01705840
Tomás Pérez Vera A01028008
Grant Nathaniel Keegan A01700753
Bárbara Paola Alcántara Vega A01799609
TC3006C.101
Inteligencia artificial avanzada para la ciencia de datos II (Gpo 501)
Índice
Introducción..............................................................................................................................3 Contexto del reto...................................................................................................................... 3 Herramientas y tecnologías..................................................................................................... 4 Propuestas de almacenamiento............................................................................................... 4 Propuesta local...................................................................................................................................4 Diagrama de arquitectura............................................................................................................5 Propuesta con servidor AWS.............................................................................................................5 Diagrama de arquitectura............................................................................................................6 Diccionario de datos....................................................................................................................6 Diagrama MER........................................................................................................................... 7 Diagrama UML...........................................................................................................................8 Costos y beneficios de la propuesta............................................................................................8 Análisis de enfoque orientado a Big Data......................................................................................... 8 Ciclo de vida de los datos.......................................................................................................10 Extracción........................................................................................................................................10 Limpieza..........................................................................................................................................10 Transformación................................................................................................................................10 Integración.......................................................................................................................................10 Separación para modelado...............................................................................................................11 Carga................................................................................................................................................11 NOTA.......................................................................................................................................................11
2
Introducción
El presente reto, es un proyecto de ciencia de datos MuuMetrics, con el propósito de desarrollar un sistema en minería de datos y análisis de imágenes digitales, para evaluar el Body Condition Score (BCS) de las vacas pertenecientes al corral seis del Centro Agro Experimental del Tecnológico de Monterrey (CAETEC).
Haciendo uso de una base de datos de 57,780 imágenes capturadas tras las sesiones de ordeño automático, se plantea el desarrollo de un modelo de aprendizaje profundo, que logre la clasificación del estado corporal de las vacas acorde a una estimación automática de su respectivo BCS, siendo esta una herramienta de apoyo y no de diagnóstico. El alcance del presente proyecto, radica en la mejora de la eficiencia operativa; reducir pérdidas por enfermedades y promover el bienestar animal, sustituyendo la evaluación manual y subjetiva del BCS por un método objetivo y automatizado.
Acorde a la naturaleza del proyecto, se planteó un objetivo de negocio para su desarrollo, el cual es determinar el estado de salud y condición corporal de vacas lecheras del corral seis del CAETEC, del cual se desprende un objetivo de minería de datos, que establece se deben categorizar vacas según su BCS y días en leche (DEL) mediante modelos de aprendizaje automático, donde los principales criterios de éxito radican en obtener una precisión mínima del 80%, y mantener errores estadísticos controlados. Para un mayor entendimiento del presente proyecto, consultar el siguiente documento: