- -
- 100%
- +


Análisis de datos con el programa estadístico R:
Una introducción aplicada
©2021, Christian Salas Eljatib
©2021, Ediciones Universidad Mayor SpA
San Pío X 2422, Pisos 1 al 6, Providencia, Santiago de Chile
Teléfono: 6003281000
www.umayor.cl
ISBN: 978-956-6086-109
ISBN digital: 978-956-6086-116
RPI: 2021-A-4608
Dirección editorial: Andrea Viu S.
Edición: Pamela Tala R.
Diseño y diagramación: Pablo García C.
Copyright @ Christian Salas Eljatib, 2021.
Sitio web del libro: www.eljatib.com/rlibro
E-mail: christian.salas@aya.yale.edu
Compilado el 6 de Agosto de 2021, Santiago, Chile.
Diagramación digital: ebooks Patagonia
info@ebookspatagonia.com www.ebookspatagonia.com
A mis hijos Josefa, Eduardo y Myriam,
y a mi amada Javiera.
Prólogo
Este libro ha sido escrito para servir como apoyo para cursos de pregrado y postgrado en donde el realizar exploración de datos y análisis estadísticos de estos son frecuentes, así como también para profesionales e investigadores que desarrollan estas tareas. El foco de esta obra es introducir el uso del software estadístico gratuito R como herramienta para manejar datos, realizar análisis exploratorio de estos y ajustar modelos estadísticos lineales. Debido al amplio uso de la estadística en diversas disciplinas como la ingeniería, ecología, agronomía, medicina, economía, ciencias ambientales y psicología, se espera que el libro pueda proveer una herramienta útil desde la cual diversos usuarios puedan organizar y desarrollar la aplicación de análisis estadísticos. Después de varios años de docencia en estadística y modelos cuantitativos, el autor se ha dado cuenta que cualquier ecuación se entiende mejor con datos y ejemplos, y es por eso que el manejo de un software potente en lo estadístico, pero también en programación, como R resulta crucial.
El libro está organizado en tres partes, partiendo desde aspectos básicos del software R hasta paulatinamente moverse al ajuste de diversos modelos estadísticos. La primera parte se enfoca en introducir el uso de R desde aspectos relacionados a su origen e instalación para su correcto funcionamiento (Cap. 1), sintaxis (Cap. 2) y describir los diferentes tipos de objetos (Cap. 3). La segunda parte cubre la exploración y análisis descriptivo de datos, abordando desde la lectura de archivos (Cap. 4), exploración de datos (Cap. 5) y confección de gráficos (Cap. 6). Finalmente, la tercera parte se aboca a aplicar los conocimientos previos en el ajuste de modelos estadísticos, desde modelos de regresión lineal simple y múltiple (Cap. 7), hasta los modelos y pruebas comúnmente utilizadas en el análisis de diseño de experimentos (Cap. 8).
Cada capítulo entrega información que va incrementalmente avanzando en información y alternativas de análisis de datos. Aunque un conocimiento básico de estadística es ideal y contribuye en la comprensión del material presentado, la estructura del libro es tal que es apropiado para ser usado en cursos a nivel de pregrado, y en asignaturas introductorias relacionadas a la estadística al nivel de magíster y doctorado. Afortunadamente, existen libros casi completos que tratan en mayor detalle los tópicos informáticos y estadísticos discutidos en cada capítulo, por lo tanto un lector interesado en profundizar puede luego referirse a ellos. Los archivos de datos ocupados se encuentran disponibles en el sitio web del libro www.eljatib.com/rlibro, así como también en el paquete datana de R. Además, actualizaciones y la fe de erratas aparecerán en dicho sitio web.
El libro provee, cuando se estima necesario, determinados conceptos teóricos que fundamentan algunos cálculos estadísticos y modelos, sin embargo, este se centra en la aplicación de R en el análisis de datos y ajuste de modelos estadísticos de regresión lineal. Por lo tanto, esta obra no es un tratado teórico sobre aspectos estadísticos. En este mismo sentido, si bien el texto se centra en la aplicación de conceptos computacionales para el análisis de datos, no pretende ser una colección exhaustiva de algoritmos computacionales ni en detalles informáticos que van más de alla de lo necesario para un usuario aplicado.
Finalmente, el autor quisiera agradecer el rol crítico de colegas y especialmente de estudiantes que han jugado en su apreciación por un manejo computacional eficiente para el análisis de datos y el ajuste de modelos estadísticos. El presente libro es el fruto de más de quince años dictando asignaturas sobre estadística aplicada y modelación en donde el autor ha ejemplificado algunos de sus contenidos mediante R, tanto como ayudante académico en Yale University (EEUU) y como profesor en la Universidad de La Frontera, Universidad de Chile y Universidad Mayor, experiencia que le ha permitido evaluar y ordenar los contenidos, así como la forma en que estos han sidos expuestos acá. Varios profesionales contribuyeron con ideas y sugerencias para la estructura del presente texto. Especialmente se agradece al profesor Timothy Gregoire, por su constante mentoría en la rigurosidad estadística y notación científica, y al profesor Andrew Robinson, por su entusiasmo permanente para con el uso de R. Así también el autor agradece a la gran comunidad de usuarios alrededor del mundo que contribuyen a la mejora permanente de R. Alguno de los datos empleados para el desarrollo de ejemplos han sido proveídos por colegas que han gentilmente cedido dicha información, dentro de los cuales se destaca a: Rodrigo Vargas, Daniel Soto, Jan Bannister, Anibal Pauchard y Andrés Fuentes. Asistentes de investigación en la Universidad de La Frontera y la Universidad Mayor, como Joaquín Riquelme, Nicolas Pino, Cristián Segovia, Camilo Matus, Tomas Cayul, Valeska Yaitul, Grace Floody y Camilo Flores, contribuyeron con llevar a cabo tareas asociadas con la preparación de esta obra. A todos los que han colaborado en diferentes formas, el autor les da las gracias, aunque obviamente cualquier error remanente en este trabajo es de él.
El autor puede ser contactado por email a christian.salas@aya.yale.edu y él apreciaría ser informado de cualquier error, puntos no claros, y omisiones en el libro. Sugerencias para mejorar y tópicos futuros son también bienvenidos. Tal como se indica en el sitio web del libro, profesores que utilicen la obra en sus cursos pueden contactar al autor para obtener resultados completos a los ejercicios de la presente obra.
Santiago, Chile
Christian Salas-Eljatib
Notación empleada en el libro
Esta obra considera una mezcla de notaciones computacionales y sigue una estructura lógica para introducir a usuarios a R, y que les permita poder desarrollar a estos los ejemplos expuestos. A continuación se indican ciertos aspectos respecto a la organización del documento.
•En un recuadro, o box, se han destacado los conceptos claves a rescatar de algunas secciones del documento.
•Con tipografía courier (algo como esto), aparecen las variables presentes en los datos analizados, así como también los comandos de R.
•Note que el símbolo ">", que aparece en la consola de R, representa a R esperando el ingreso de comandos por parte del usuario. Es aquí donde el usuario debe ingresar comandos, y luego apretar la tecla enter para llevarlo a cabo. Un comando es una secuencia de caracteres que el programa reconoce para ejecutar algoritmos o tareas específicas.
•Si se requiere replicar en un computador alguno de los comandos explicados, se debe escribir dichos comandos tal y como aparece en el texto. R no es sensible al espaciado entre caracteres, pero sí es sensible a las letras mayúsculas.
•Aunque los amantes del idioma castellano no estarán de acuerdo con el autor, a veces dentro del texto se ha preferido el uso de algunos términos en inglés y no los castellanos, simplemente porque dichos términos son más cortos, y son más fáciles para encontrar ayuda en internet.
•En la obra, cuando se representen comentarios de sintaxis (escritos en tipografía courier y precedidos por el símbolo #) y en algunas etiquetas de gráficos se ha omitido el uso de tildes, para así evitar problemas que a veces ocurren por la configuración del teclado en los computadores.
Índice general
I Introducción al mundo de R
1 R: ¿Qué?, ¿Cómo? y ¿Dónde?
1.1 ¿Qué es R?
1.2 ¿Cómo instalar R?
1.3 ¿Dónde interactúo con R?
1.4 Instalando paquetes
2 Introducción a la sintaxis de R
2.1 R como una calculadora
2.2 Funciones en R
2.2.1 Funciones matemáticas
2.2.2 Funciones de densidad de probabilidad
2.2.3 Funciones trigonométricas
2.2.4 Otras funciones útiles
2.3 Llevando un registro
2.4 Buscando ayuda sobre R
3 Objetos
3.1 Asignación
3.2 Valores escalares
3.2.1 Numérico
3.2.2 Cadena de caracteres alfanuméricos
3.2.3 Lógico
3.3 Estructura de datos
3.3.1 Vector
3.3.2 Factores
3.3.3 Matrices
3.3.4 Listas
3.3.5 Set de datos
3.4 Otras funciones útiles
3.4.1 sample()
3.4.2 rep()
3.4.3 paste()
II Explorando datos
4 Cargar y guardar datos
4.1 ¿Dónde se está trabajando en el computador?
4.2 Cargando datos
4.2.1 Desde un paquete de R
4.2.2 Desde un archivo con valores separados con coma
4.2.3 Desde un archivo ASCII
4.2.4 Desde un archivo ASCII tipo Fortran
4.2.5 Desde un archivo dBbase (.dbf)
4.2.6 Desde un archivo en internet
4.2.7 Desde un archivo .xls
4.3 Guardando datos
4.3.1 Como un archivo con valores separados con coma
4.3.2 Como un archivo ASCII
5 Exploración de datos
5.1 Cargando un set de datos
5.2 Creando variables
5.3 Seleccionar una porción de una dataframe (filtros)
5.4 Estadística descriptiva
6 Gráficos
6.1 Gráficos de distribución
6.2 Gráficos de dispersión
6.3 Algunos otros gráficos más complejos
6.4 Guardar un gráfico
6.4.1 Mediante el GUI de R
6.4.2 Con línea de comando
III Ajuste de modelos
7 Análisis de regresión
7.1 El modelo lineal: algo de teoría
7.2 Ajustando un modelo lineal simple
7.2.1 Predicción con un modelo de regresión ajustado
7.3 Ajuste de un modelo lineal múltiple
7.3.1 Revisando valores perdidos
7.3.2 Relación entre varias variables
7.3.3 Modelos ajustados
7.3.4 Comparación de modelos
8 Modelos en diseños experimentales
8.1 ANOVA: modelo de regresión con variable predictora categórica
8.2 Un factor: anova simple
8.2.1 Describiendo los datos
8.2.2 anova
8.2.3 Distribución de los residuales ("normalidad")
8.2.4 Homocedasticidad de los residuales
8.2.5 Gráficos de residuales
8.3 Comparaciones entre tratamientos
8.3.1 Comparaciones pareadas
8.3.2 Pruebas de comparación múltiple
8.3.3 Contrastes
8.4 Dos o más factores: Experimento factorial
8.4.1 Describiendo los datos
Epílogo
Referencias bibliográficas
Anexos
a GUIs para R
b La función attach
c Símbolos especiales

I Introducción al mundo de R
1 R: ¿Qué?, ¿Cómo? y ¿Dónde?
1.1 ¿Qué es R?
1.2 ¿Cómo instalar R?
1.3 ¿Dónde interactúo con R?
1.4 Instalando paquetes
2 Introducción a la sintaxis de R
2.1 R como una calculadora
2.2 Funciones en R
2.3 Llevando un registro
2.4 Buscando ayuda sobre R
3 Objetos
3.1 Asignación
3.2 Valores escalares
3.3 Estructura de datos
3.4 Otras funciones útiles
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.