lingvo--classify

Автоматическая классификация документов заключается в автоматическом соотнесении каждого входящего документа по заранее определенным классам (или тематикам).

Как правило, методы автоматической классификации основаны на так называемом методе машинного обучения: сначала получают обученную с помощью какого-либо алгоритма модель, качество которой определяет точность классификации. Таким образом, процесс обучения зависит от выбранного алгоритма и «чистоты» обучающей выборки.

Следует учесть, что большое количество классов (десятки и сотни) приводит к увеличению трудоемкости обучения и понижению точности классификации. Тематики, близкие по своей сути (например, экономика и бизнес), приводят к тому, что классы в обучающей модели начинают пересекаться, приводя к снижению точности. В таких случаях, как правило, такие классы объединяют в один, а затем используют подклассификацию, или повторную классификацию документов внутри класса.

В данной системе автоматической классификации используется популярный метод опорных векторов (или SVM – Support Vector Machine) с мерой TFiDF. Модель в данной версии обучена на нескольких классах, определенных заранее:

Авто
Экономика и бизнес
Шоу-бизнес и развлечения
Семья
Мода
Компьютерные игры
Здоровье и медицина
Политика
Недвижимость
Наука и технологи
Спорт
Туризм, путешевствия
Кулинария

Согласно этим классам происходит классификация каждого входящего документа с учетом его меры близости к тому или иному классу. Если документ близок к двум тематикам, то он попадает в соответствующие два класса. Если документ похож сразу на несколько тематик, то, скорее всего, это шум.

Качество классификации чаще всего оценивается по двум критериям: точностью и полнотой классификации. Точность показывает, насколько точно документы попадают в определенный класс, а полнота определяется соотношением документов, релевантных данному классу, к общему количеству релевантных документов. Точность можно повышать, задавая порог прохода документа в тот или иной класс, при этом полнота классификации будет уменьшаться. Как правило, стараются найти оптимальное соотношение этих критериев.

Данная система автоматической классификации показывает около 83% точности и 92% полноты.

Name		Name	Last commit message	Last commit date
Latest commit History 65 Commits
[resources]		[resources]
captcha		captcha
classify.console		classify.console
classify.model-builder.console		classify.model-builder.console
classify.webService		classify.webService
classify		classify
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE.md		LICENSE.md
README.md		README.md
classify.sln		classify.sln
clear-after-build.cmd		clear-after-build.cmd

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

lingvo--classify

About

Releases

Packages

Languages

License

zamgi/lingvo--classify

Folders and files

Latest commit

History

Repository files navigation

lingvo--classify

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages