Яндекс.Метрика

    Обучение

    Среда статистических вычислений R: опыт использования в преподавании

    Хочу рассказать об использовании свободной среды статистического анализа R. Рассматриваю ее как альтернативу статистических пакетов типа SPSS Statistics. К моему глубокому сожалению, она совершенно неизвестна на просторах нашей Родины, а зря. Полагаю, что возможность написания дополнительных процедур статистического анализа на языке S делает систему R полезным инструментом анализа данных.
    В весеннем семестре 2010 года мне довелось читать лекции и проводить практические занятия по курсу «Статистический анализ данных» для студентов отделения интеллектуальных систем РГГУ.

    Мои студенты предварительно изучали семестровый курс теории вероятностей, покрывающий основы дискретных вероятностных пространств, условные вероятности, теорему Байеса, закон «больших чисел», некоторые сведения о нормальном законе и Центральную предельную теорему.

    Лет пять назад я уже проводил занятия по (тогда еще объединенному) семестровому курсу «Основы теории вероятностей и математической статистики», поэтому я расширил свои заметки (выдаваемые перед каждым занятием студентам) по статистике. Сейчас, когда в РГГУ имеется студенческий сервер isdwiki.rsuh.ru отделения, я параллельно выкладываю их на FTP.

    Встал вопрос: какую программу использовать, для проведения практических занятий в компьютерном классе? Часто используемый Microsoft Excel был отклонен как из-за проприетарности, так и из-за некорректности реализации некоторых статистических процедур. Об этом можно прочитать, например, в книге А.А.Макарова и Ю.Н.Тюрина «Статистический анализ данных на компьютере». Электронные таблицы Calc из бесплатного офисного пакета Openoffice.org русифицировали так, что мне с трудом удается найти требуемую функцию (их названия еще и сократили отвратительно).
    Наиболее часто используется пакет SPSS Statistics. В настоящее время фирма SPSS поглощена фирмой IBM. Среди преимуществ IBM SPSS Statistics выделю:
    • Удобная загрузка данных различных форматов (Excel, SAS, через OLE DB, через ODBC Direct Driver);
    • Наличие как командного языка, так и разветвленной системы меню для прямого доступа к различным процедурам статистического анализа;
    • Графические средства вывода результатов;
    • Встроенный модуль Statistics Coach, интерактивным образом предлагающий адекватный метод анализа.

    Недостатками IBM SPSS Statistics на мой взгляд являются:
    • Платность даже для студентов;
    • Необходимость получения (дополнительно оплачиваемых) модулей, содержащих специальные процедуры;
    • Поддержка только 32-разрядных операционных систем Linux, хотя Windows поддерживаются как 32-разрядные, так и 64-разрядные.

    В качестве альтернативы я выбрал систему R. Эта система начала разрабатываться усилиями Роберта Джентльмена и Росса Ихака на факультете статистики университета Мельбурна в 1995 году. Первые буквы имен авторов определили ее название. Впоследствии к развитию и расширению этой системы подключились ведущие специалисты-статистики.

    Достоинствами обсуждаемой системы я считаю:
    • Распространение программы под GNU Public License;
    • Доступность как исходных текстов, так и бинарных модулей в обширной сети репозитариев CRAN (The Comprehensive R Archive Network). Для России — это сервер cran.gis-lab.info;
    • Наличие установочного пакета под Windows (работает как на 32-х, так и на 64-х разрядной Vista). Случайно выяснилось, что установка не требует прав администратора под Windows XP;
    • Возможность установки из репозитария в Linux (у меня работает на 64-разрядной версии Ubuntu 9.10);
    • Наличие собственного языка программирования статистических процедур R, фактически ставшим стандартом. Он, например, полностью поддерживается новой системой IBM SPSS Statistics Developer;
    • Этот язык является расширением языка S, разработанным в Bell Labs, в настоящее время составляющим основу коммерческой системы S-PLUS. Большинство программ, написанных для S-PLUS, может легко быть исполнено в среде R;
    • Возможность обмена данным с электронными таблицами;
    • Возможность сохранения всей истории вычислений для целей документирования.

    К первому занятию были подготовлены CD, на которые были записаны установочные файлы, документация и руководства. О последних скажу подробнее. В CRAN имеются подробные руководства пользователя по установке, языку R (и его подмножеству S), написанию дополнительных статистических процедур, экспорту и импорту данных. В разделе Contributed Documentation имеется большое число публикаций преподавателей-статистиков, использующих этот пакет в учебном процессе. К сожалению, на русском языке ничего нет, хотя, например, есть даже на польском. Из англоязычных книг отмечу «Using R for introductory statistics» профессора Джона Верзани из городского университета Нью-Йорка и «Introduction to the R project for Statistical Computing» профессора Росситера (Голландия) из Международного института Геоинформатики и наблюдений Земли.

    Первое занятие было посвящено установке и обучению пользоваться пакетом, знакомство с синтаксисом языка R. В качестве тестовой задачи использовались вычисления интегралов методом Монте-Карло. Вот пример вычисления вероятности с.в. с экспоненциальным распределением с параметром 3 принять значение меньше 0.5 (10000 — число попыток).
    > x=runif(10000,0,0.5)
    > y=runif(10000,0,3)
    > t=y<3*exp(-3*x)
    > u=x[t]
    > v=y[t]
    > plot(u,v)
    > i=0.5*3*length(u)/10000

    image

    Первые две строчки задают равномерное распределение точек в прямоугольнике [0,0.5]x[0,3], затем отбираются те точки, которые попали под график экспоненциальной плотности 3*exp(-3*x), функция plot отображает точки в окне графического вывода, наконец, вычисляется искомый интеграл.
    Второе занятие было посвящено вычислению описательных статистик (квантилям, медиане, среднему, дисперсии, корреляции и ковариации) и выводу графиков (гистограммы, ящик-с-усами).
    В последующих занятиях использовалась библиотека «Rcmdr». Это — графический интерфейс пользователя (GUI) для среды R. Библиотека создается усилиями профессора Джона Фокса из университета McMaster в Канаде.
    image

    Установка этой библиотеки производится выполнением команды install.packages(«Rcmdr», dependencies=TRUE) внутри среды R. Если сама среда — интерпретатор языка R, то надстройка «Rcmdr» — это дополнительное окно, снабженное системой меню, содержащей большое число команд, соответствующих стандартным статистическим процедурам. Это особенно удобно для курсов, где главное — научить студента нажимать на кнопочки (к моему сожалению, такие встречаются сейчас все в большем количестве).

    Из предыдущего моего курса были расширены заметки к семинарам. Они также доступны через FTP с сайта isdwiki.rsuh.ru. Эти заметки содержали таблицы критических значений, которые использовались для вычислений у доски. В этом году студентам предлагалось решать эти задачи на компьютере, а также проверять таблицы, использовав (нормальные) аппроксимации, также указанные в заметках.

    Имелись и некоторые мои промахи. Например, я слишком поздно понял, что Rcmdr позволяет импортировать данные из загруженных пакетов, поэтому относительно большие выборки обрабатывались только на занятиях, посвященных регрессионному анализу. При изложении непараметрических тестов данные студенты вводили руками, используя мои заметки. Другим недостатком, как я сейчас понимаю, было недостаточное число домашних заданий на написание достаточно сложных программ на языке R.

    Следует отметить, что на мои занятия ходили несколько студентов старших курсов, а некоторые скачивали материалы лекций и семинаров. Студенты отделения интеллектуальных систем РГГУ получают фундаментальную подготовку по математике и программированию, поэтому использование среды R (вместо электронных таблиц и статистических пакетов с фиксированными статистическими процедурами) представляется мне очень полезным.

    Если перед Вами стоит задача изучения статистики, а особенно написание нестандартных процедур статистической обработки данных, то рекомендую обратить свое внимание на пакет R.