Nota: xx/55
En este trabajo se analizarán los datos de la ciudad de Barcelona de acuerdo a los objetivos propuestos en el trabajo.
Para el obligatorio se deberán utilizar las herramientas utilizadas en el curso. Deberá seleccionar un conjunto de datos tabulares con más de 4 tablas y deberá seleccionar 8 preguntas relativas a los datos para contestarlas.
Parte 1
Los pasos a seguir son:
- Tomar los datos que fueron seleccionados junto al docente.
- Realizar un análisis exploratorio de los datos vía pandas, identificando el tipo de datos que hay en cada columna y que significado tienen dentro del dominio de los datos
- Revisar valores nulos o faltantes y limpiarlos si es necesario. Revisar registros duplicados. Claves primarias únicas.
- Los archivos resultantes se deberán almacenar en otra carpeta.
- A partir de estos nuevos archivos, se deben crear visualizaciones dentro de otro notebook con las herramientas dadas en clase u otras de elección del equipo, que ayuden a responder las preguntas seleccionadas.
Parte 2
El mismo análisis realizado en la parte 1 realizarlo vía Spark, ya sea dentro de la máquina virtual si se tienen créditos si no dentro de Google Collab.
Parte 3
Se píde desarrollar un dashboard que responda algunas de las preguntas planteadas, implementado en Tableau Public o superset.
Parte 4
Una vez que termine con la exploración y limpieza de datos, deberá elegir una forma de modelarlos, esta puede ser, Normalizada, Diagrama Estrella, Data Vault, o OBT. Describir en Hive, como lo modelaría, que tablas crearía y de que tipo (externas, internas).
A continuación se muestra una tabla con los 17 datasets utilizados en el análisis de datos de la ciudad de Barcelona, junto con su nombre y enlace a su ubicación:
Nombre del dataset | Enlace | Dataset limpiado | Para Tableau |
---|---|---|---|
Accidents 2017 | Enlace 1 | Nuevo 1 | |
Air quality Nov 2017 | Enlace 2 | Nuevo 2 | |
Air stations Nov 2017 | Enlace 3 | Nuevo 3 | |
Births | Enlace 4 | Nuevo 4 | |
Bus stops | Enlace 5 | Nuevo 5 | Tableau 5 |
Deaths | Enlace 6 | Nuevo 6 | Tableau 6 |
Immigrants by nationality | Enlace 7 | Nuevo 7 | |
Immigrants emigrants by age | Enlace 8 | Nuevo 8 | |
Immigrants emigrants by destination | Enlace 9 | Nuevo 9 | |
Immigrants emigrants by destination 2 | Enlace 10 | Nuevo 10 | |
Immigrants emigrants by sex | Enlace 11 | Nuevo 11 | |
Life expectancy | Enlace 12 | Nuevo 12 | |
Most frequent baby names | Enlace 13 | Nuevo 13 | |
Most frequent names | Enlace 14 | Nuevo 14 | |
Population | Enlace 15 | Nuevo 15 | Tableau 15 |
Transports | Enlace 16 | Nuevo 16 | Tableau 16 |
Unemployment | Enlace 17 | Nuevo 17 |
- ¿Cuál es la relación entre las paradas de autobús y la densidad de población en diferentes barrios?, ¿influye el transporte publico?
- ¿Cuál es la nacionalidad más común entre los inmigrantes en Barcelona?
- ¿cómo varía la cantidad de nacimientos por género con el tiempo en diferentes distritos y barrios de Barcelona?
- ¿Cuál es la relación entre la cantidad de accidentes y la densidad de población en diferentes barrios?, ¿influye la calidad del aire?
- ¿Cómo varía la esperanza de vida en diferentes barrios de Barcelona?
- ¿Cuál es la relación entre la cantidad de inmigrantes y los niveles de desempleo en los diferentes barrios?
- ¿Cuales son los nombres mas populares en Barcelona?, ¿influye la inmigración?
- ¿Cual es la relación entre las muertes, el desempleo y la inmigración en diferentes barrios de Barcelona?
Parte 1
Ver Notebook de Análisis de Datos
Ver Notebook de Respuestas a Preguntas
Parte 2
Ver Notebook de Análisis con Spark
Parte 3
![DASHBOARD PREGUNTA 1](https://private-user-images.githubusercontent.com/82982815/349693422-ea5f4a43-62f1-47b9-901d-25744cf09430.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkzNDM3NzAsIm5iZiI6MTczOTM0MzQ3MCwicGF0aCI6Ii84Mjk4MjgxNS8zNDk2OTM0MjItZWE1ZjRhNDMtNjJmMS00N2I5LTkwMWQtMjU3NDRjZjA5NDMwLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTAyMTIlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwMjEyVDA2NTc1MFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTZkZGM2ZTQwMTUyOGE5MWEwNjQ2YWJlMWJhMmY5MzRmZmRmMTY4NDViZDQ3M2I4YjZhMjdmZDA2YjMzNWNiMDgmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.YPisXdyRtRIDAPPcfIKo2HxNRkRrgZFbITFgrxAQTpQ)
![DASHBOARD PREGUNTA 2](https://private-user-images.githubusercontent.com/82982815/349693482-dbedb9ab-a87a-4908-bfa4-bd8afd8d05de.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkzNDM3NzAsIm5iZiI6MTczOTM0MzQ3MCwicGF0aCI6Ii84Mjk4MjgxNS8zNDk2OTM0ODItZGJlZGI5YWItYTg3YS00OTA4LWJmYTQtYmQ4YWZkOGQwNWRlLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTAyMTIlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwMjEyVDA2NTc1MFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWJjZDVmMjU4ZmMzNzcxM2I3ZDY2M2ViNjZlZWNhNzJiM2ExM2U0ZmZlNDU3ZTY1MzFhYzUyZWNjOTI4MzdmMTImWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.wi5QUC6iPYP50k_kG06pmCgRV7YXMVzYPLhCmpueSPI)
![DASHBOARD PREGUNTA 3](https://private-user-images.githubusercontent.com/82982815/349693516-0a63bbd4-09ff-4e13-9792-6412e0a5c5ae.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkzNDM3NzAsIm5iZiI6MTczOTM0MzQ3MCwicGF0aCI6Ii84Mjk4MjgxNS8zNDk2OTM1MTYtMGE2M2JiZDQtMDlmZi00ZTEzLTk3OTItNjQxMmUwYTVjNWFlLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTAyMTIlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwMjEyVDA2NTc1MFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTQ1Y2UwNmZiOTZkZDcxYzExNDU5NGQ2MTY1NDdkYTkzMzVhMzViYmNiNmU0ZmUyZDcwMWU3ZTM3ZmE0NGQyNWUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.Ci3nnkAjTXyM2hRliZ5pjR-2O53xUTELnE_Ihza07E4)
![DASHBOARD PREGUNTA 4](https://private-user-images.githubusercontent.com/82982815/349693544-1b2cc080-4518-488c-9229-353ca67682ce.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkzNDM3NzAsIm5iZiI6MTczOTM0MzQ3MCwicGF0aCI6Ii84Mjk4MjgxNS8zNDk2OTM1NDQtMWIyY2MwODAtNDUxOC00ODhjLTkyMjktMzUzY2E2NzY4MmNlLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTAyMTIlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwMjEyVDA2NTc1MFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTIwNTIzMzVlZWVmMWZkY2MwMjZmY2IwNmQwYmJlMDk1ZDlhMDBkODFmNTE4YjJkY2MwOTkxMjliNTZmMDRlOWMmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.5LVebWgpuFfeKfiX115tKWGdxTzdvHZh1oOb5xFRB84)
Parte 4
En este trabajo se analizaron los datos de la ciudad de Barcelona, se realizaron visualizaciones y se respondieron preguntas planteadas. Se utilizó tanto Python con Pandas y otras librerias, asi como también Spark para el análisis de los datos. Se crearon dashboards en Tableau Public y se presentó un modelado teórico de los datos en Hive.