Анализ тональности текста. Основные понятия. Задачи анализа тональности. Краткий алгоритм машинного обучения в анализе тональности текста.
Автоматический анализ тональности часто представляет собой задачу классификации, где некоторую совокупность изучаемых объектов (текстов, предложений, слов) необходимо разделить по соответствующим классам (в зависимости от выбранной шкалы, например класс положительных и класс отрицательных). Алгоритм, выполняющий классификацию на основе автоматического анализа тональности, называется классификатором.
Задачу классификации текста для анализа тональности можно определить следующим образом:
Ниже представлены существующие подходы классификации текстов для выявления тональности текста:
- Машинное обучение с учителем;
- Машинное обучение без учителя;
- Объектно-ориентированный подход;
- Гибридный подход.
При помощи стратегий машинного обучения с учителем система сначала обучается на конечной совокупности пар «вход-эталонный выход», называемой обучающей выборкой. На основе данных, полученных в ходе обучения, система строит алгоритм, устанавливающий зависимость между входными и выходными данными, который затем может быть применён на наборе новых неизвестных данных, называемых тестовой (или контрольной) выборкой, по которой оценивается качество работы алгоритма.
Краткий алгоритм может быть описан следующим образом:
- Cбор коллекции документов;
- Представление каждого документа в виде вектора признаков;
- Тональная разметка документов;
- Выбор алгоритма классификации и метода для обучения классификатора;
- Использование модели для вычисления тональности документов из новой коллекции, которая не содержит разметки.