Использование анализа данных в образовательной сфере


МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ
ФЕДЕРАЦИИ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«ВЯТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Факультет экономики и менеджмента
Кафедра «Бизнес-информатика»
Научная статья
«Использование анализа данных в
образовательной сфере»
Научный руководитель
Ст. препод. каф. БИ
Кузьминых Михаил Михайлович
Подготовила
студентка группы БИ-31-1
Шаромова Юлия Юрьевна
г. Киров
2015
Современное высшее учебное заведение это достаточно сложная
организация, но основной задачей любого вуза является обеспечение
качественного образования для студентов. Качество образования и управление
им весьма непростые и объемные темы, так что в данной публикации мы
затронем один из элементов управления качеством, а именно вопрос
использования анализа данных в образовательной сфере.
EducationalDataMining (EDM) это развивающееся направление науки,
основанное на применении сравнительно новых методов анализа данных в
образовательной сфере. На сегодня популярность и распространенность EDM в
отечественных вузах еще не слишком широка, что обусловлено рядом
факторов, в частности, недостатком информации, слабым представлением о
возможностях EDM и общей неразвитостью информационной инфраструктуры
вузов.
Такое положение дел нельзя считать приемлемым, так как применение EDM
может стать важным инструментом управления качеством образования,
позволяя не только получать более полную картину существующей
действительности, но и обнаруживать неочевидные, но практически значимые
закономерности. Конечно, предварительно необходимо выявить все источники
данных, которые могут быть использованы для анализа и обеспечить сбор
данных из этих источников. На сегодня эта задача очень далека от решения, а
во многих случаях даже не поставлена. К сожалению, имеющихся на текущий
момент в нашем распоряжении данных, пригодных для анализа, недостаточно
для построения моделей, способных продемонстрировать все возможности
технологий анализа данных в сфере образования, поэтому в данной работе мы
ограничимся небольшим, можно сказать, экспериментальным использованием
инструмента EDM.
Первым шагом на пути к проведению «глубинного анализа данных»
является некоторый статистический (на основе математического аппарата), или
первичный, анализ данных. На этом шаге аналитик пытается найти
элементарную связь между выборками данных, на основе чего делает выводы и
уже далее продолжает анализ в больших масштабах.
В нашем случае, обратимся к данным, собираемым в процессе
промежуточной аттестации студентов в течение семестра, сведениям о
посещаемости и результатам сессии. Очевидно, что проведение текущей
аттестации должно дать возможность спрогнозировать результаты предстоящей
сессии, что полезно как самому студенту, так и сотрудникам вуза. Проверим,
есть ли связь между результатами аттестации и последующими успехами в ходе
сессии.
Для решения поставленной задачи были собраны и проанализированы
результаты сессии студентов 1 курса, итоги двух аттестаций и посещаемость за
1 год обучения. В качестве оценок данных использовались следующие:
1. Аттестации (2): оценка "0" - не аттестован, "1" - аттестован. В итоге
рассчитывалось среднее значение по каждому студенту.
2. Сессия: ставились оценки от 3 до 5 в случае сдачи экзамена по
дисциплине и "0" - если студент не сдал экзамен или не явился на него по
какой-либо причине. В итоге рассчитывалось среднее значение по каждому
студенту.
3. Посещаемость: рассчитывалось общее число проведенных занятий, затем
число пропущенных занятий всего каждым студентом, после чего
высчитывалась доля посещений каждым студентом.
В ходе расчетов были получены четыре набора данных: средние величины
по двум аттестациям, сессии и доля посещений. Зависимость данных, которую
необходимо выявить, может быть найдена путем нахождения корреляции
между наборами данных. Известно, что корреляция обычно вычисляется между
двумя наборами данных. Мы имеем четыре набора, поэтому в данном случае
необходимо построить корреляционную матрицу, в узлах которой -
коэффициенты, определяющие степень корреляционной зависимости между
соответствующими наборами данных, причем коэффициенты находятся в
пределах от -1 до 1, где знак определяет, прямая зависимость присутствует
между данными или обратная.
Для решения данной задачи существует достаточно большое количество
инструментов, однако, большинство из них распространяется на платной
основе, требует от пользователя достаточно высокой квалификации и так далее.
Соответственно, внедрение этого инструментария в практику сопряжено со
значительными расходами. Тем не менее, в последнее время появилось
некоторое количество свободно распространяемых сред анализа данных,
которые, к тому же, предоставляют достаточно простой графический
интерфейс, позволяющий работать более широкому кругу пользователей.
Одной из таких сред является KNIME, бесплатный программный продукт, не
требующий инсталляции. Он предлагает множество способов для анализа
данных. Единственным минусом использования KNIME является некоторый
языковой барьер: программа полностью англоязычная, а вдобавок ко всему
отсутствие документации на русском языке усложняет работу аналитика -
бывает трудно конвертировать с языка на язык достаточно нетривиальную
информацию.
Для решения задачи выявления наличия или отсутствия закономерностей в
наборах данных, полученных нами в ходе анализа, необходимо составить
схему, используя возможности KNIME. На рис. 1 и рис. 2 представлены
соответственно схема метаузла, позволяющая произвести предварительные
расчеты, и схема, демонстрирующаякорреляционный анализ данных.
Рисун
ок 1
Рисунок 2
Объект "MetaNode" содержит в себе целый ряд процессов, результатом
протекания которых является 1 информационный выход, показанный на схеме.
Объект "FileReader" позволяет импортировать исходные данные из файла
нашем случае они находились в текстовых файлах), "Transpose" нужен для
транспонирования начальных данных, поскольку последующий объект
"Statistics" вычисляет статистические величины по столбцам начальных,
представленных в виде таблицы, данных, поэтому предварительно необходимо
было поменять строки и столбцы местами. Объект "ColumnAppender" позволяет
объединить две таблицы в одну. Данная операция была произведена дважды. В
итоге получаем единую таблицу с необходимыми вычислениями. Результатом
работы метаузла является 1 поток с вычисленными данными: средними
значениями по аттестациям и сессии, а также величиной посещаемости каждым
студентом.
Объект "LinearCorrelation" непосредственно осуществляет корреляцию,
причем в настройках можно выбрать, какие статистические характеристики
исключить из корреляционного анализа, а какие, напротив, включить. Объект
"InteractiveTable" необходим для визуализации данных, хотя объект
"LinearCorrelation" и сам достаточно неплохо выполняет эту функцию ис. 3).
Объект строит матрицу в виде сетки, узлы которой раскрашены красным или
синим цветом (в зависимости от прямого или обратного характера связи) с
разной интенсивностью цвета: цвет ярче при более высокой степени связи, и
наоборот. Перечеркнутая ячейка матрицы означает, что корреляция
отсутствует.
Рисунок 3 - Корреляционная матрица ("LinearCorrelation")
На Рис. 4 представлена таблица, являющаяся результатом анализа данных, -
корреляционная матрица.
Рисунок 4 - Корреляционная матрица ("InteractiveTable")
Согласно полученным данных, можно сделать вывод о том, что достаточно
высока корреляция между посещаемостью занятий и результатами сессии.
Соответствующие связи между остальными наборами данных имеются, но в
меньшей степени, низкая корреляция наблюдается между посещаемостью и
результатами второй аттестации. Очевидно, что соответствующая зависимость
между аттестациями, сессией и посещаемостью прямая, так как величина
корреляционного коэффициента проявилась с положительным знаком. В целом,
корреляцию можно оценивать как среднюю, поскольку коэффициенты
корреляции в основном изменяются от 0.5 до 0.69, за исключением корреляций
«Посещение-Аттестация2» и «Посещение-Сессия». По большому счету,
посещаемость и аттестация во многом определяют результат сдачи экзамена,
что демонстрируют результаты корреляционного анализа - связь межу этими
величинами варьируется от 0.585 до 0.73.
На первый взгляд, наше исследование подтверждает и так известные факты.
Однако, одно дело представлять положение дел на интуитивном уровне, когда
«и так ясно», что результаты аттестации и посещаемость связаны с
успешностью сдачи сессии. И другое дело, когда имеется количественное
выражение этой зависимости. Ведь если обнаруживается, что результаты
аттестации не позволяют предсказать результаты сессии, то возможно, не стоит
вообще проводить аттестацию и тратить на нее ресурсы.
Разумеется, проведенные расчеты – это лишь эксперимент, позволяющий
оценить возможность применения технологий EDM и потенциальный эффект
от них. Для того, чтобы извлекать действительную пользу, необходимо создать
инфраструктуру сбора данных и выполнять анализ, подобный приведенному в
статье, на регулярной основе, используя результаты анализа в текущей
деятельности. Мы предполагаем развить эту тему в дальнейших работах.
Список использованных источников:
1. Статья носит авторский характер.