Автоматическая классификация документов заключается в автоматическом соотнесении каждого входящего документа по заранее определенным классам (или тематикам).
Как правило, методы автоматической классификации основаны на так называемом методе машинного обучения: сначала получают обученную с помощью какого-либо алгоритма модель, качество которой определяет точность классификации. Таким образом, процесс обучения зависит от выбранного алгоритма и «чистоты» обучающей выборки.
Следует учесть, что большое количество классов (десятки и сотни) приводит к увеличению трудоемкости обучения и понижению точности классификации. Тематики, близкие по своей сути (например, экономика и бизнес), приводят к тому, что классы в обучающей модели начинают пересекаться, приводя к снижению точности. В таких случаях, как правило, такие классы объединяют в один, а затем используют подклассификацию, или повторную классификацию документов внутри класса.
В данной системе автоматической классификации используется популярный метод опорных векторов (или SVM – Support Vector Machine) с мерой TFiDF. Модель в данной версии обучена на нескольких классах, определенных заранее:
- Авто
- Экономика и бизнес
- Шоу-бизнес и развлечения
- Семья
- Мода
- Компьютерные игры
- Здоровье и медицина
- Политика
- Недвижимость
- Наука и технологи
- Спорт
- Туризм, путешевствия
- Кулинария
Согласно этим классам происходит классификация каждого входящего документа с учетом его меры близости к тому или иному классу. Если документ близок к двум тематикам, то он попадает в соответствующие два класса. Если документ похож сразу на несколько тематик, то, скорее всего, это шум.
Качество классификации чаще всего оценивается по двум критериям: точностью и полнотой классификации. Точность показывает, насколько точно документы попадают в определенный класс, а полнота определяется соотношением документов, релевантных данному классу, к общему количеству релевантных документов. Точность можно повышать, задавая порог прохода документа в тот или иной класс, при этом полнота классификации будет уменьшаться. Как правило, стараются найти оптимальное соотношение этих критериев.
Данная система автоматической классификации показывает около 83% точности и 92% полноты.