Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие

- -
- 100%
- +
7
Феноменологический (от слова «феномен») – эмпирическое описание наблюдаемого явления или эффекта.
8
Коммерческий программный продукт, разработанный компанией Dell (США), а настоящим владельцем является компания TIBCO (США).
9
Коммерческий программный продукт, разработанный в Чикагском университете США, в настоящее время права на данный продукт принадлежат компании IBM (США).
10
Коммерческий программный продукт, разработанный в университете штата Пенсильвания (США), распространяемый компанией Minitab Inc. со штаб-квартирой в Пенсильвании (США).
11
Свободно распространяемое программное обеспечение, разработчиком которого являются Алан Дж. Салмони и Марк Ливингстон. Выпуск новых версий ПО закончился в 2003 году.
12
Свободно распространяемый аналог SPSS Statistics со встроенным языком программирования R поддерживается Университетом Амстердама (Нидерланды).
13
Свободно распространяемый программный продукт, предназначенный для статистического анализа данных, считается аналогом SPSS Statistics.
14
Язык программирования высокого уровня, разработанный сотрудниками статистического факультета Оклендского университета (США) для статистического анализа данных. Свободно распространяется.
15
RStudio не является единственной интегрированной средой разработки на языке R, но практика применения показала, что данная среда наиболее удобна для применения.
16
В этот язык программирования входит набор библиотек, позволяющих проводить статистический анализ данных, собственно, как и компилируемых языков высокого уровня, таких как Си и Си++. Основным минусом Python для статистического анализа данных является его более общее назначение (в ряде случаев то, что на R решается двумя строчками кода, на Python может потребовать написания кода в несколько десятков строк). Да и в R практически каждая библиотека, набор данных и часто функции сопровождаются публикациями в академической печати, чего не скажешь о библиотеках и функциях, входящих в Python.
17
Более подробно о данном типе лицензии можно прочесть: https://www.gnu.org/licenses/agpl-3.0.txt.
18
См.: https://posit.co/download/rstudio-desktop. В случае, если ваши системы отличны от систем общего назначения (например, исследователь использует ПК с архитектурой arm), то лучше обратиться за помощью к системному администратору.
19
Обзор системы RStudio представлен на сайте: https://docs.posit.co/ide/user.
20
Процесс установки пакетов в языке программирования R и IDE RStudio: https://search.r-project.org/R/refmans/utils/html/install. packages.html.
21
Открытый набор данных, доступный на сайте Московского эксперимента: https://www.telemed.ai.
22
Venables W. N., Ripley B. D. Modern Applied Statistics with S. 4th edition. Springer, 2002.
23
Aitchison J., Dunsmore I. R. Statistical Prediction Analysis. Cambridge University Press, 1975. Tables 11.1—3.
24
Venables W., Ripley B. D. S programming. Springer Science & Business Media, 2000.
25
Andersen Per K., Borgan Ø., Gill R. D., et al. Statistical models based on counting processes. Springer Science & Business Media, 2012.
26
Smith J. W., Everhart J. E., Dickson, W. C., et al. Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In Proceedings of the Symposium on Computer Applications in Medical Care / ed. R. A. Greenes. Washington, 1988. P. 261—265.
27
Hand D. J., Daly F., McConway K., et al. A Handbook of Small Data Sets. Chapman & Hall, 1993. P. 229. Data set 285.
28
Menzies School of Health Research 1999—2000. Annual Report. P. 20. URL:https://www.menzies.edu.au/icms_docs/172302_2000_Annual_report.pdf.
29
Murphy P. M., Aha D. W. UCI Repository of machine learning databases. [Machine-readable data repository]. Irvine, CA: University of California; Department of Information and Computer Science, 1992.
30
Hosmer D. W., Lemeshow S. Applied Logistic Regression. New York: Wiley, 1989.
31
Thall P. F., Vail S. C. Some covariance models for longitudinal count data with over-dispersion // Biometrics. 1990. Vol. 46, №3. Р. 657—671.
32
Cox D. R., Oakes D. Analysis of Survival Data. Chapman & Hall, 1984. P. 7. Taken from: Gehan E.A. A generalized Wilcoxon test for comparing arbitrarily single-censored samples // Biometrika. 1965. №52. Р. 203—233.
33
Linder A., Chakravarti I. M., Vuagnat P. Fitting asymptotic regression curves with different asymptotes. In Contributions to Statistics. Presented to Professor P. C. Mahalanobis on the occasion of his 70th birthday / ed. C. R. Rao. Oxford: Pergamon Press, 1964. P. 221—228.
34
Kwan К. С., Breault G. O., Umbenhauer E. R., et al. Kinetics of Indomethacin absorption, elimination, and enterohepatic circulation in man // Journal of Pharmacokinetics and Biopharmaceutics. 1976. №4. Р. 255—280.
35
Boeckmann A. J., Sheiner L. B., Beal S. L. Nonmem Users Guide. Part V. Nonmem Project Group; University of California, San Francisco, 1994.
36
Diggle P. J. Time Series: A Biostatistical Introduction. Oxford, 1990. Table A.1, series 3.
37
The World Almanac and Book of Facts, 1975.
38
В языке программирования R количественные данные могут быть представлены типами numeric, integer, double (в языке R отсутствует тип данных с одинарной точностью).
39
Фактор (лат. factor «делающий, производящий») – причина, движущая сила какого-либо процесса, определяющая его характер или отдельные его черты. См.: Фактор // Большая советская энциклопедия: в 30 т. / гл. ред. А. М. Прохоров. 3-е изд. М.: Советская энциклопедия, 1969—1978.
40
Васильев Ю. А., Арзамасов К. М., Владзимирский А. В. [и др.]. Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта: учебное пособие. Издательские решения, 2024. 140 с.
41
Здесь и далее во всем тексте пособия примеры программного кода на языке R будут обозначены словом «Листинг» и иметь сквозную нумерацию.
42
Более подробное построение гистограмм распределения экспериментальных величин рассмотрено в главе 4.
43
Колмогоров А. Н. Избранные труды. Математика и механика. М.: Наука, 1985.
44
Совпадает со значением, соответствующим максимуму частоты встречаемости признака или измеряемой величины в случае нормального закона распределения данных.
45
Знак экранирования однострочных комментариев.
46
Функция length () предназначена для определения длины вектора, более подробно см. справку в RStudio -?length.
47
Функция sqrt () используется для вычисления квадратного корня из количественной величины.
48
См.: параграф 2.1.1. Выборочное среднее.
49
Херцог М., Френсис Г., Кларк А. [и др.]. Статистика и планирование эксперимента для непосвященных: как отучить статистику лгать. М.: ДМК Пресс, 2023. 174 с.
50
Функция max () – определение максимального значения в числовом ряду.
51
Функция min () – определение минимального значения в числовом ряду.
52
Значения в процентах выбраны произвольно, чаще это 25 % и 75 %.
53
Значение исследуемой переменной, которое встречается наиболее часто в исследуемых данных.
54
Ивановский Р. И. Теория вероятностей и математическая статистика. Основы, прикладные аспекты с примерами и задачами в среде Mathcad: учеб. пос. СПб.: БХВ-Петербург, 2008. 528 с.
55
В рамках данного учебного пособия не рассматриваются варианты возникновения сложных статистических гипотез, материал приведен для справок.
56
Более подробно уровень статистической значимости, ошибки первого и второго рода рассмотрены в главе 5 учебного пособия.
57
Данный материал приведен как справочный и редко применяется на практике, только в том случае, когда вычисления по критерию проводятся посредством самостоятельно реализованного программного кода.
58
См.: https://ru.wikipedia.org/wiki/Проверка_статистических_гипотез.
59
Кендалл М., Стьюарт А. Теория распределений. М.: Наука, 1966. 588 с.
60
Herbert A. S. The choice of a class interval // Journal of the American statistical association. 1926. Vol. 21, №153. Р. 65—66.
61
Шторм Р. Теория вероятностей. Математическая статистика. Статистический контроль качества. М.: Мир, 1970. 368 с.
62
Heinhold I., Gaede K. W. Ingeniur statistic. München; Wien, Springler Verlag, 1964. 352 p.
63
Ченцов Н. Н. Статистические решающие правила и оптимальные выводы. М.: Наука, 1972. 520 с.
64
Лемешко Б. Ю., Чимитова Е. В. О выборе числа интервалов в критериях согласия типа c2 // Заводская лаборатория. Диагностика материалов. 2003. Т. 69, №1. С. 61—67.
65
Более подробно структура и применение пакета ggplot2 представлена в работе: Мастицкий С. Э. Визуализация данных с помощью ggplot2. М.: ДМК Пресс, 2017. 222 с.





