Regresión Lineal

  1. Ejercicio de regresión lineal

Regresión No Lineal

  1. Ejercicio de regresión no lineal

Regresión Múltiple

  1. Ejercicio de regresión múltiple

Regresión Logística

  1. Ejercicio de regresión logística

Datos del Titanic: Estos son datos reales

  • Survived, si el pasajo sobrevivio o no
  • Pclass, El tipo de cabina donde estaba asignado los pasajeros, primera, segunda o tercera clases
  • Name: El nombre del pasajero
  • Sex of the passenger: El sexo del pasajero
  • Age of the passenger: La edad del pasajero
  • Fare: Cuanto pago para el viaje.
  • Embarked port: El puerto donde enbarco los pasajeros, Southhampton, England; Queenstown, Ireland and Cherbourg in France.

Subir los datos

library(readr)
X_Titanic <- read_csv("Data/ Titanic.csv")
## Rows: 1309 Columns: 12
## ── Column specification ─────────────────────────────────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): Name, Sex, Ticket, Cabin, Embarked
## dbl (7): PassengerId, Survived, Pclass, Age, SibSp, Parch, Fare
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Titanic=X_Titanic 
head(Titanic)
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
103Braund, Mr. Owen Harrismale2210A/5 211717.25S
211Cumings, Mrs. John Bradley (Florence Briggs Thayer)female3810PC 1759971.3 C85C
313Heikkinen, Miss. Lainafemale2600STON/O2. 31012827.92S
411Futrelle, Mrs. Jacques Heath (Lily May Peel)female351011380353.1 C123S
503Allen, Mr. William Henrymale35003734508.05S
603Moran, Mr. Jamesmale003308778.46Q
  • Hacer gráfico de la variable de respuesta. ¿Cual de las variables de las listas es la variable de respuesta parta una regessión logística y porque?

  • Seleccionar por lo menos tres variables explicativas de la lista, dos de estas tienen que ser el “Pclass” y “Age”, la otra uds la selecciona de la lista.

  • Hacer gráficos de la frecuencia de las variables explicativas

  • Usando la prueba correcta evalúa por lo menos tres diferentes modelos o sea la relación entre la supervivencia y estas variables y explicar lo que esta probando y su interpretación de:

    • Edad
    • Categoría de Camarote
    • Edad y Categoría de Camarote
  • Cual es la probabilidad de un pasajero de Irlanda morir si era de la tercera clase

  • Hacer un gráfico de demuestra la relación entre edad y supervivencia separado por sexo


Regresión Poisson

  1. Ejercicio de regresión Poisson

Los datos provienen del siguiente website. https://towardsdatascience.com/generalized-poisson-regression-for-real-world-datasets-d1ff32607d79

Los datos son el numero de ciclista que pasan por diferentes puentes en Nueva York. Incluye las siguientes variables

  • DATE
  • DAY
  • HIGH TEMPERATURE
  • LOW TEMPERATURE
  • PRECIPITATION
  • BROOKLYN BRIDGE
  • MANHATTAN BRIDGE
  • WILLIAMSBURG BRIDGE
  • QUEENBORO BRIDGE
  • TOTAL NUMBER OF CYCLIST
library(readr)
NY_CITY_CYCLIST <- read_csv("Data/NY_CITY_CYCLIST.csv")
## Rows: 215 Columns: 10
## ── Column specification ─────────────────────────────────────────────────────────────────────────────────────
## Delimiter: ","
## chr (2): Date, Day
## dbl (3): High_Tem_F, Low_Temp_F, Precipitation
## num (5): Brooklyn_Bridge, Manhattan_Bridge, Williamsburg_Bridge, Queensboro_...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Bici=NY_CITY_CYCLIST

head(Bici)
DateDayHigh_Tem_FLow_Temp_FPrecipitationBrooklyn_BridgeManhattan_BridgeWilliamsburg_BridgeQueensboro_BridgeTotal
1-AprFriday78.166  0.011.7e+03 3.13e+034.12e+032.55e+031.15e+04
2-AprSaturday55  48.90.15827       1.65e+032.56e+031.88e+036.92e+03
3-AprSunday39.934  0.09526       1.23e+031.7e+03 1.31e+034.76e+03
4-AprMonday44.133.10.47521       1.07e+031.44e+031.31e+034.34e+03
5-AprTuesday42.126.10   1.42e+032.62e+033.08e+032.36e+039.47e+03
6-AprWednesday45  30  0   1.88e+033.33e+033.86e+032.85e+031.19e+04
  • Evaluar un modelo para tratar de predecir la cantidad de ciclista que pasan por uno de los puentes de New York

  • Crea un gráfico de los coeficientes

  • EVALUAR SI HAY SOBRE DISPERSION.

SI Hay sobre dispersión CUAL ALTERNATIVA hay disponible PARA EVALUAR EL MODELO? Construir el modelo


Regresión Beta

  1. Ejercicio de regresión de Beta

Evaluate if the propotion of invasive plants is correlated with the

  • area= tamaño de la isla,
  • population =tamaño poblacional,
  • pdensity: densidad poblacional
  • gdp: producto Interno Bruto.

En este fragmento, calculo la proporción de plantas que son extrañas en función de la flora total de la isla, Proporción de especie invasivas = Prop_inv.

library(readr)
GXM_Data <- read_csv("Data/GXM_Data.csv")
## Rows: 15 Columns: 14
## ── Column specification ─────────────────────────────────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (1): island
## dbl (13): alien, native, area, elevation, km_mainland, latitude, population,...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
GXM_Data$Prop_inv_plants=GXM_Data$alien/(GXM_Data$alien+GXM_Data$native)
head(GXM_Data)
islandaliennativeareaelevationkm_mainlandlatitudepopulationpdensityroadsagricultureforestgdptouristsProp_inv_plants
Anguilla149256       91       73       83818.21.74e+04192  82       0  61.1175       1.51e+050.368
Antigua222711       443       402       70617.19.59e+04217  386       20.522.32.39e+032.47e+050.238
Barbados301539       430       336       39513.22.93e+05682  1.7e+03 32.619.45.22e+031.35e+060.358
Dominica244980       751       1.45e+0351715.47.4e+04 98.6762       34.759.2783       7.1e+04 0.199
Grenada199751       344       840       15712.11.12e+05326  902       32.350  1.63e+031.68e+050.209
Guadeloupe3331.18e+031.69e+031.46e+0359116.34.49e+05266  1.74e+0315  47.33.51e+036.5e+05 0.22 
library(tidyverse)
library(ggplot2)
library(betareg)
  • Calcular los cuantiles

Situación económica y asignación de alimentos de Filipinas

Estos datos provienen de Filipinas y son una encuesta de la situación económica de 41544 familias. La encuesta incluye 60 variables. Para ver los nombres de las variables, escriba en un fragmento. names(Phili)

library(readr)
Philippine_Family_Income_Expenditure <- read_csv("Data/Philippine_Family_Income_Expenditure.csv")
## Rows: 41544 Columns: 60
## ── Column specification ─────────────────────────────────────────────────────────────────────────────────────
## Delimiter: ","
## chr (15): Region, Main Source of Income, Household Head Sex, Household Head ...
## dbl (45): Total Household Income, Total Food Expenditure, Agricultural House...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Phili=Philippine_Family_Income_Expenditure
length(Phili$total_household_income)
## Warning: Unknown or uninitialised column: `total_household_income`.
## [1] 0
library(janitor)
Phili=clean_names(Phili)
  • Calcule la proporción del costo de alimentación de las familias por familia en función de los ingresos familiares.
Phili$PropFood=Phili$total_food_expenditure/Phili$total_household_income
  • Produzca un gráfico de la variable de respuesta PropFood. Evaluar el porcentaje del income que se usa para comida. Cumple con las condiciones de una beta? Si no como se resuelve?

Visualizar la distribución de la proporción del income dedicado a la comida

  • Construir el modelo de regresión beta

  • Calucar los cuantiles

  • Al construir la figura para la regresión beta, una de las principales ventajas de utilizar este enfoque es que los cuartiles se calcula con una distribución beta. Por lo tanto, el margen de error NO baja de 0 y NO pasa de 1.

  • Evalua la siguiente figura en cada x hay una distribución beta, donde la linea roja representa una mediana, las lineas verdes son los cuartiles 25 y 75 y las lineas azules las percentilas 5 y 95. NOTA que la distribución no es simétrica, y cambia a travez de la regresión.