Главная | Обратная связь | Поможем написать вашу работу!

Проблемы с алгоритмами и предложения авторов

Применение рекуррентных нейронных сетей для проверки пользователей на основе динамики нажатия клавиш

Аннотация

Динамика нажатия клавиш - один из методов биометрии, который можно использовать для проверки человека. Эта работа вкратце представляет историю биометрии и современное состояние динамики нажатия клавиш. Кроме того, он представляет собой алгоритм проверки человека на основе этих данных. Чтобы добиться этого, были подготовлены авторские заготовки и тестовые наборы, был использован справочный набор данных. Описанный алгоритм является классификатором на основе рекуррентных нейронных сетей (LSTM and GRU). Высокая точность без ложных положительных ошибок, а также высокая масштабируемость с точки зрения количества пользователей были выбраны в качестве целей. Были предприняты некоторые попытки смягчить естественные проблемы алгоритма (например, генерировать искусственные данные). Эксперименты проводились с использованием различных сетевых архитектур. Авторы предположили, что данные динамики нажатия клавиш имеют характер последовательности, что повлияло на их выбор классификатора. Они достигли удовлетворительных результатов, особенно когда дело доходит до ложно-положительной свободной настройки.

Введение

Проблема проверки чаще всего решается путем назначения какого-то пароля, который должен быть известен только данному пользователю и состоит из конечной последовательности символов. Когда пользователь вводит этот пароль, сторона, ответственная за подтверждение личности, может указать, является ли пользователь тем, кем он представляется (на основании предположения, что только настоящий пользователь знает пароль). Однако такой подход не лишен недостатков. Например, должен быть какой-то механизм для обработки ситуации, когда пользователь забывает свой пароль. Более того, традиционные пароли могут быть сломаны методом «в лоб», если только атакующий человек имеет достаточно времени и вычислительной мощности (и, конечно же, нет других защит против него). Кроме того, если пользователь хранит пароль где-то еще, кроме своего собственного мозга, то он(пароль) должен быть в безопасности. Альтернативой этому методу является использование безопасности на основе биометрических данных.

Динамика нажатия клавиш является полем поведенческой биометрии, которая касается людей, набирающих шаблоны на клавиатуре. Оказывается, способ, которым пользователь пишет на клавиатуре, является одной из его или ее уникальных характеристик. Еще в 1980-х годах первая работа была выполнена с целью разработки алгоритма, который мог бы идентифицировать пользователя на основе этого признака [1]. Было проведено много экспериментов, которые показали, что это хороший показатель идентичности [1] - [4].

Чтобы математически описать шаблон ввода, нам сначала нужно получить конкретные данные от пользователя. Эти данные состоят из метки времени нажатия и / или отпускания кнопки. Затем из этих измерений можно сделать вычисления, например. [5]:

· время пребывания - время между моментом нажатия и моментом отпускания кнопки

· время полета - время между нажатием (или отпусканием) последующих клавиш.

Пользователь, который вводит текст, может ошибаться, что означает, что векторы, представляющие разные образцы, могут различаться по длине.

На следующем этапе данные передаются на какую-то модель, задача которой - ответить на вопрос, является ли проверяемый пользователь тем, за кого он себя выдает. Эта модель может быть системой обнаружения аномалий или классификатором. Популярным подходом является использование алгоритмов на основе базы данных образцов. В этом случае новый образец сравнивается с уже существующими в базе данных, чтобы найти сходство.

Алгоритм состоит из двух частей: метод получения данных вместе с извлечением признаков и модель, которая проверяет / идентифицирует образец. Проектирование новых решений может повлиять на оба этих модуля. На точность может влиять даже способ получения данных от пользователя, а также его характер. В самом базовом подходе образец, описывающий пользователя, просто состоит из отмеченных ранее временных меток (из которых вычисляется время пребывания / полета). Кроме того, иногда полезно измерять другие значения, например. глазное движение. Люди часто либо следят глазами за движением пальцев, либо смотрят прямо на монитор. Принимая во внимание это поведение, можно повысить точность классификации. Мобильные устройства поставляются с дополнительными датчиками, такими как гироскоп или акселерометр. Информация от этих датчиков доказала свою полезность [6] - [8]. [9] показывает мысли об авторизации для мобильных устройств с упором на использование биометрических методов, включая динамику нажатия клавиш. В дополнение ко всей этой информации также много значит сигнал в ошибках, сделанных пользователем, а также способ их исправления (e.g. by using delete vs. backspace).

Для некоторых приложений использование только динамики нажатия клавиш может быть недостаточно точным из-за строгих правил. Даже в такой ситуации он может использоваться как ценная поддержка традиционных данных. Такие подходы повышают безопасность, и комбинированная точность может быть достаточно высокой, чтобы использоваться даже в здравоохранении [10]. Такие способы могут быть расширены еще более биометрическими методами, например. распознавание лица [11].

Как указывалось ранее, данные динамики нажатия клавиш могут также найти приложения, когда дело доходит до идентификации пользователя. В этой статье эта задача сводится к многоклассной классификации, то есть каждый пользователь представлен классом. В этом случае мы обычно ограничиваем количество пользователей. Эта работа фокусируется на проверке, потому что проблема, которую он пытается решить, пользователь уже идентифицирован по его или ее адресу электронной почты. Проблема идентификации была широко описана в [12] вместе с предложенным алгоритмом.

Современные алгоритмы

Рассматривая проблему как проблему обнаружения аномалий, часто используются статистические методы, основанные на каком-то промежутке. В стандартном подходе, имея некоторый набор данных (давайте рассматривать каждый образец как вектор), находим его центр, который также является вектором. Это этап подготовки. С другой стороны, на этапе тестирования задача состоит в том, чтобы определить, является ли данный вектор (тестовый образец) аномальным или нет. Чтобы ответить на этот вопрос, нужно вычислить расстояние между центром и тестовым образцом. Расстояние может быть классическим евклидовым расстоянием, а также чем-то более сложным, то есть расстоянием Манхэттена. Этот простой алгоритм может быть дополнительно модифицирован, например, путем применения дистанционной нормировки. В алгоритме Filtered Manhattan после обнаружения центра сначала все образцы, которые находятся слишком далеко от него, удаляются, а затем вычисляется новая центральная точка. Аналогичная группа алгоритмов основана на идее k-ближайших соседей. В этом случае вместо обозначения центральной точки и сравнения входных данных с ней мы находим k (в частности, k = 1) ближе всего по заданному расстоянию. В этом случае обычно вычисляется оценка аномалии по мере удаления от центра. Еще один интересный подход - использование нечетких множеств. В таких множествах каждый объект принадлежит (до некоторой степени) диапазонам. Оценка аномалий затем вычисляется как среднее отсутствие принадлежности. Подход, который больше всего похож на идею, представленную в этой работе, вероятно, является одноклассовым SVM. Однако такой классификатор обучается только по положительному классу (в противовес алгоритму работы).

Более подробное описание этих алгоритмов (со ссылками на исчерпывающие описания) можно найти в [13]. Результаты [13] являются ориентиром для результатов, достигнутых алгоритмом, описанным в этой статье. Когда дело доходит до многоклассовой классификации с динамикой нажатия клавиш, были проверены множественные классификаторы: HMM, SVM, k-ближайшие соседи и нейронные сети [14]. Представленный алгоритм не решает проблему классификации многоклассов. Тем не менее, с небольшими изменениями, он может быть подготовлен и к таким проблемам. С другой стороны, алгоритмы, упомянутые в этом абзаце, могут быть использованы как бинарные классификаторы и заменить предложенный.

1.2. Методы оценки алгоритмов

Важным моментом является оценка предлагаемых алгоритмов. Введем следующие члены:

· True Positive Rate (TPR) TP/(TP+FN) или скорость нажатия

· False Positive Rate (FOR) FP/(FP+TN), информирует о вероятности пропуска мошенника

где: TP - количество истинных положительных значений, TN - количество истинных негативов, FP - количество ложных срабатываний, FN - количество ложных негативов.

Помимо стандартной точности или погрешности измерения, когда речь заходит о динамике нажатия клавиш (а также в других областях биометрии), для оценки алгоритмов часто используются еще две меры:

· Равная частота ошибок (EER) - значение для предела, в котором FPR и пропускная скорость1 - TPR равны,

· Нулевая частота - значение FPR, для которого TPR = 1 (нет ложных положительных ошибок).

Оба эти значения можно легко прочитать из кривой ROC. На рисунке 1 показана кривая ROC образца вместе с отмеченными на ней точками. Значения можно считывать с оси x этих точек.

Проблемы с алгоритмами и предложения авторов

Некоторые из упомянутых алгоритмов основаны на предположении, что у нас есть некоторая база данных шаблонов для пользователя. В тот момент, когда появляется новый образец, нам нужно пройти через всю базу данных и найти сходства (к этому приближению подходят k-ближайшие соседи). Обратите внимание, что динамика нажатия клавиш является поведенческой особенностью, поэтому она со временем изменяется больше, чем физиологические. Когда дело доходит до проблемы динамики нажатия клавиш, сохранение статической базы данных для данного пользователя может закончиться постепенно снижающейся точностью. Одним из решений, которое приходит на ум, является добавление новых образцов. К сожалению, побочным эффектом такого подхода является растущая потребность в памяти такой системы. Этот недостаток, в сочетании с большим количеством пользователей, может привести к потреблению памяти в качестве основного недостатка. Когда дело доходит до многоклассовой классификации, необходимо добавить новый класс с каждым новым пользователем.

Другая проблема этих алгоритмов заключается в том, что они рассматривают вводимые данные, как вектор. Интуитивно кажется, что числа, представляющие образец от человека, больше похожи на последовательность, т. е. между ними существует некоторая связь. Как правило проблема машинного обучения – это то, что она скрыта и неизвестна. В качестве примера, допустим, пользователь ошибся, а затем исправил ошибки. В случае последовательной записи такая информация напрямую кодируется по своей длине, потому что ошибки и исправления требуют больше нажатий клавиш.

Алгоритмы, которые описываются и сравниваются в [13], достигают относительно низкой точности, когда речь идет о ситуации, когда порог был установлен, чтобы избежать ложных положительных ошибок (нулевая миссия). Наилучший представленный алгоритм в этой настройке (k-ближайшие соседи с расстоянием Махаланобиса) достиг 0,468 с нулевой скоростью. В проблеме контроля доступа это будет означать ситуацию, когда вероятность отклонения подлинного пользователя близка к 0,5.

Проблемой, для которой представленный алгоритм может быть полезным, является создание централизованной системы, обслуживающей аутентификацию, на основе способа, которым пользователь вводит свой адрес электронной почты. Таким образом, электронная почта вместе с биологической характеристикой человека будет единственным идентификатором в Интернете, и необходимость использования нескольких длинных паролей исчезнет. Проблемой, для которой представленный алгоритм может быть полезным, является создание централизованной системы, обслуживающей аутентификацию, на основе способа,в котором пользователь вводит свой адрес электронной почты. Таким образом, электронная почта вместе с биологической характеристикой человека будет единственным идентификатором в Интернете, и необходимость использования нескольких длинных паролей исчезнет. Услугами такой системы могут использоваться внешними службами, которые могут предоставить ей достаточную информацию, то есть данные динамики нажатия клавиш плюс адрес электронной почты и взамен получить информацию о том, проверен ли пользователь или нет.

Имея все это в виду, представленный алгоритм является предметом больших ограничений. Во-первых, он должен аутентифицировать потенциально всех в Интернете. Учитывая огромное количество пользователей Интернета (почти 3 миллиарда в 2014 году [15]), необходимо учитывать бесконечную масштабируемость с точки зрения пользователя, которая должна быть допустима, что не может быть ограничено алгоритмом.

Такая система потенциально может быть использована для предоставления доступа ко многим услугам с использованием одного и того же способа идентификации. Важнейшей особенностью такой системы является определенная защита ресурсов от несанкционированных пользователей. Игнорирование этой проблемы приведет не только к тому, что не решим проблему, когда у пользователя есть один пароль для многих учетных записей, и кто-то имеет доступ к нему, но может даже ухудшить её. Думаю, лучше время от времени отклонять подлинного пользователя, чем принимать атакующего. Разработанный алгоритм должен, таким образом, сосредоточиться на минимизации (в идеале исключающем) ложноположительных ошибкок, что будет означать принятие неправильного пользователя. Устранение таких ошибок должно быть целью даже ценой большого снижения точности.

Предлагаемый алгоритм был разработан с учетом всех этих особенностей. Таким образом, наиболее важными задачами являются масштабируемость с точки зрения количества пользователей и высокая точность без ложноположительных ошибок.

Алгоритм

Общая идея и мотивация

В стандартном подходе при проверке динамики нажатия клавиш используются детекторы аномалий. Представленный подход отличается. Он использует двоичный классификатор (рекуррентные нейронные сети). Данные от настоящего пользователя являются положительными, а другие - отрицательными.

Воспользуйтесь поиском по сайту: