Datos del Titanic: Estos son datos reales
Subir los datos
## Rows: 1309 Columns: 12
## ── Column specification ─────────────────────────────────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): Name, Sex, Ticket, Cabin, Embarked
## dbl (7): PassengerId, Survived, Pclass, Age, SibSp, Parch, Fare
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22 | 1 | 0 | A/5 21171 | 7.25 | S | |
2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Thayer) | female | 38 | 1 | 0 | PC 17599 | 71.3 | C85 | C |
3 | 1 | 3 | Heikkinen, Miss. Laina | female | 26 | 0 | 0 | STON/O2. 3101282 | 7.92 | S | |
4 | 1 | 1 | Futrelle, Mrs. Jacques Heath (Lily May Peel) | female | 35 | 1 | 0 | 113803 | 53.1 | C123 | S |
5 | 0 | 3 | Allen, Mr. William Henry | male | 35 | 0 | 0 | 373450 | 8.05 | S | |
6 | 0 | 3 | Moran, Mr. James | male | 0 | 0 | 330877 | 8.46 | Q |
Hacer gráfico de la variable de respuesta. ¿Cual de las variables de las listas es la variable de respuesta parta una regessión logística y porque?
Seleccionar por lo menos tres variables explicativas de la lista, dos de estas tienen que ser el “Pclass” y “Age”, la otra uds la selecciona de la lista.
Hacer gráficos de la frecuencia de las variables explicativas
Usando la prueba correcta evalúa por lo menos tres diferentes modelos o sea la relación entre la supervivencia y estas variables y explicar lo que esta probando y su interpretación de:
Cual es la probabilidad de un pasajero de Irlanda morir si era de la tercera clase
Hacer un gráfico de demuestra la relación entre edad y supervivencia separado por sexo
Los datos provienen del siguiente website. https://towardsdatascience.com/generalized-poisson-regression-for-real-world-datasets-d1ff32607d79
Los datos son el numero de ciclista que pasan por diferentes puentes en Nueva York. Incluye las siguientes variables
## Rows: 215 Columns: 10
## ── Column specification ─────────────────────────────────────────────────────────────────────────────────────
## Delimiter: ","
## chr (2): Date, Day
## dbl (3): High_Tem_F, Low_Temp_F, Precipitation
## num (5): Brooklyn_Bridge, Manhattan_Bridge, Williamsburg_Bridge, Queensboro_...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Date | Day | High_Tem_F | Low_Temp_F | Precipitation | Brooklyn_Bridge | Manhattan_Bridge | Williamsburg_Bridge | Queensboro_Bridge | Total |
---|---|---|---|---|---|---|---|---|---|
1-Apr | Friday | 78.1 | 66 | 0.01 | 1.7e+03 | 3.13e+03 | 4.12e+03 | 2.55e+03 | 1.15e+04 |
2-Apr | Saturday | 55 | 48.9 | 0.15 | 827 | 1.65e+03 | 2.56e+03 | 1.88e+03 | 6.92e+03 |
3-Apr | Sunday | 39.9 | 34 | 0.09 | 526 | 1.23e+03 | 1.7e+03 | 1.31e+03 | 4.76e+03 |
4-Apr | Monday | 44.1 | 33.1 | 0.47 | 521 | 1.07e+03 | 1.44e+03 | 1.31e+03 | 4.34e+03 |
5-Apr | Tuesday | 42.1 | 26.1 | 0 | 1.42e+03 | 2.62e+03 | 3.08e+03 | 2.36e+03 | 9.47e+03 |
6-Apr | Wednesday | 45 | 30 | 0 | 1.88e+03 | 3.33e+03 | 3.86e+03 | 2.85e+03 | 1.19e+04 |
Evaluar un modelo para tratar de predecir la cantidad de ciclista que pasan por uno de los puentes de New York
Crea un gráfico de los coeficientes
EVALUAR SI HAY SOBRE DISPERSION.
SI Hay sobre dispersión CUAL ALTERNATIVA hay disponible PARA EVALUAR EL MODELO? Construir el modelo
Evaluate if the propotion of invasive plants is correlated with the
En este fragmento, calculo la proporción de plantas que son extrañas en función de la flora total de la isla, Proporción de especie invasivas = Prop_inv.
## Rows: 15 Columns: 14
## ── Column specification ─────────────────────────────────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): island
## dbl (13): alien, native, area, elevation, km_mainland, latitude, population,...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
island | alien | native | area | elevation | km_mainland | latitude | population | pdensity | roads | agriculture | forest | gdp | tourists | Prop_inv_plants |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Anguilla | 149 | 256 | 91 | 73 | 838 | 18.2 | 1.74e+04 | 192 | 82 | 0 | 61.1 | 175 | 1.51e+05 | 0.368 |
Antigua | 222 | 711 | 443 | 402 | 706 | 17.1 | 9.59e+04 | 217 | 386 | 20.5 | 22.3 | 2.39e+03 | 2.47e+05 | 0.238 |
Barbados | 301 | 539 | 430 | 336 | 395 | 13.2 | 2.93e+05 | 682 | 1.7e+03 | 32.6 | 19.4 | 5.22e+03 | 1.35e+06 | 0.358 |
Dominica | 244 | 980 | 751 | 1.45e+03 | 517 | 15.4 | 7.4e+04 | 98.6 | 762 | 34.7 | 59.2 | 783 | 7.1e+04 | 0.199 |
Grenada | 199 | 751 | 344 | 840 | 157 | 12.1 | 1.12e+05 | 326 | 902 | 32.3 | 50 | 1.63e+03 | 1.68e+05 | 0.209 |
Guadeloupe | 333 | 1.18e+03 | 1.69e+03 | 1.46e+03 | 591 | 16.3 | 4.49e+05 | 266 | 1.74e+03 | 15 | 47.3 | 3.51e+03 | 6.5e+05 | 0.22 |
Estos datos provienen de Filipinas y son una encuesta de la situación económica de 41544 familias. La encuesta incluye 60 variables. Para ver los nombres de las variables, escriba en un fragmento. names(Phili)
library(readr)
Philippine_Family_Income_Expenditure <- read_csv("Data/Philippine_Family_Income_Expenditure.csv")
## Rows: 41544 Columns: 60
## ── Column specification ─────────────────────────────────────────────────────────────────────────────────────
## Delimiter: ","
## chr (15): Region, Main Source of Income, Household Head Sex, Household Head ...
## dbl (45): Total Household Income, Total Food Expenditure, Agricultural House...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
## Warning: Unknown or uninitialised column: `total_household_income`.
## [1] 0
Construir el modelo de regresión beta
Calucar los cuantiles
Al construir la figura para la regresión beta, una de las principales ventajas de utilizar este enfoque es que los cuartiles se calcula con una distribución beta. Por lo tanto, el margen de error NO baja de 0 y NO pasa de 1.
Evalua la siguiente figura en cada x hay una distribución beta, donde la linea roja representa una mediana, las lineas verdes son los cuartiles 25 y 75 y las lineas azules las percentilas 5 y 95. NOTA que la distribución no es simétrica, y cambia a travez de la regresión.