Skip to content

Автоклассификация текста на русском языке

License

Notifications You must be signed in to change notification settings

zamgi/lingvo--classify

Repository files navigation

lingvo--classify

[ live demo ]

Автоматическая классификация документов заключается в автоматическом соотнесении каждого входящего документа по заранее определенным классам (или тематикам).

Как правило, методы автоматической классификации основаны на так называемом методе машинного обучения: сначала получают обученную с помощью какого-либо алгоритма модель, качество которой определяет точность классификации. Таким образом, процесс обучения зависит от выбранного алгоритма и «чистоты» обучающей выборки.

Следует учесть, что большое количество классов (десятки и сотни) приводит к увеличению трудоемкости обучения и понижению точности классификации. Тематики, близкие по своей сути (например, экономика и бизнес), приводят к тому, что классы в обучающей модели начинают пересекаться, приводя к снижению точности. В таких случаях, как правило, такие классы объединяют в один, а затем используют подклассификацию, или повторную классификацию документов внутри класса.

В данной системе автоматической классификации используется популярный метод опорных векторов (или SVM – Support Vector Machine) с мерой TFiDF. Модель в данной версии обучена на нескольких классах, определенных заранее:

  1. Авто
  2. Экономика и бизнес
  3. Шоу-бизнес и развлечения
  4. Семья
  5. Мода
  6. Компьютерные игры
  7. Здоровье и медицина
  8. Политика
  9. Недвижимость
  10. Наука и технологи
  11. Спорт
  12. Туризм, путешевствия
  13. Кулинария

Согласно этим классам происходит классификация каждого входящего документа с учетом его меры близости к тому или иному классу. Если документ близок к двум тематикам, то он попадает в соответствующие два класса. Если документ похож сразу на несколько тематик, то, скорее всего, это шум.

Качество классификации чаще всего оценивается по двум критериям: точностью и полнотой классификации. Точность показывает, насколько точно документы попадают в определенный класс, а полнота определяется соотношением документов, релевантных данному классу, к общему количеству релевантных документов. Точность можно повышать, задавая порог прохода документа в тот или иной класс, при этом полнота классификации будет уменьшаться. Как правило, стараются найти оптимальное соотношение этих критериев.

Данная система автоматической классификации показывает около 83% точности и 92% полноты.