Анализ тональности текста. Основные понятия. Задачи анализа тональности. Краткий алгоритм машинного обучения в анализе тональности текста.

    Обработка естественных языков (англ. Natural Language Processing) используется в таких задачах, как распознавание тем, анализ тональности, распознавание языка, классификация документов и извлечение ключевых фраз.

    В рамках настоящего исследования было выработано следующее определение: анализ тональности (сентимент-анализ, анализ мнений) — группа задач, методов и инструментов интеллектуального анализа текстов, направленных на определение, извлечение, измерение аффективных состояний (в значении психических состояний, характеризующихся эмоциональной окрашенностью: эмоциональные состояния, состояние аффекта, настроение и т.д.) и эмоциональной оценки автора, выраженных в текстах на естественном языке, и классификацию текстов на основе выявленной оценки.

    Автоматический анализ тональности часто представляет собой задачу классификации, где некоторую совокупность изучаемых объектов (текстов, предложений, слов) необходимо разделить по соответствующим классам (в зависимости от выбранной шкалы, например класс положительных и класс отрицательных). Алгоритм, выполняющий классификацию на основе автоматического анализа тональности, называется классификатором.

Задачу классификации текста для анализа тональности можно определить следующим образом:


    В первом случае, каждому документу сопоставляется нулевое значение, для определения соответствия документа с конкретным классом. В случае ранжирования определяется степень принадлежности — число из диапазона [0, 1]. Соответственно, чем больше число, тем больше документ относится к классу.

    Ниже представлены существующие подходы классификации текстов для выявления тональности текста:

  • Машинное обучение с учителем;
  • Машинное обучение без учителя;
  • Объектно-ориентированный подход;
  • Гибридный подход.

    В данной работе рассмотрим краткий алгоритм машинное обучение. Раздел машинного обучения, в котором определяются закономерности и взаимосвязи между объектами из некоторой неразмеченной выборки данных, называется обучением без учителя. 
    Противоположным в реализации этому методу является метод обучения с учителем, в котором для каждого объекта из обучающей выборки задается правильный ответ и требуется найти взаимосвязь между объектами и ответами.

    При помощи стратегий машинного обучения с учителем система сначала обучается на конечной совокупности пар «вход-эталонный выход», называемой обучающей выборкой. На основе данных, полученных в ходе обучения, система строит алгоритм, устанавливающий зависимость между входными и выходными данными, который затем может быть применён на наборе новых неизвестных данных, называемых тестовой (или контрольной) выборкой, по которой оценивается качество работы алгоритма.

Краткий алгоритм может быть описан следующим образом:

  • Cбор коллекции документов;
  • Представление каждого документа в виде вектора признаков;
  • Тональная разметка документов;
  • Выбор алгоритма классификации и метода для обучения классификатора;
  • Использование модели для вычисления тональности документов из новой коллекции, которая не содержит разметки.