Skip to content

seldcat/boolean_search_hw_framework

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

boolean_search_hw_framework

что здесь

Данный репозитрий содержит базовые скрипты необходимые для выполнения домашнего задания для раздела "Индексация и булев" поиск курса "Информационный поиск"

Как выполнить задание

Для выполнения домашнего задания нужно создать обратный индекс для набора документов и найти документы по запросам.

Соответственно нужно реализовать логику для следующих объектов:

Index -- создание обратного индекса
QueryTree -- загрузка запроса и поиск в обратном индексе
SearchResults -- сбор результатов и создание файла с ответами.

Результат решения должен быть представлен в виде csv файла следующего вида:

ObjectId,Relevence
1,1

где ObjectId -- номер пары документ-запрос, Relevance -- 1 - документ попадает в множество ответов для данного запроса, 0 -- не попадает.

Затем, файл с ответами нужно отправить на соревнование в kaggle для оценки качества. Подробные описания файлов с тестовыми данными есть на страничке соревнования.

Скрипт с решением следует отправить в виде pull request для данного репозитория.

Для унификации, решения будут проверяться с использованием docker контейнеров, скрипты с командой запуска докера и ожидаемой версией python есть в этом же репозитории.

Для запуска контейнера нужно в корне репозитория создать каталог data и туда скопировать файлы

docs.txt
objects.enumerate.txt
queries.enumerate.txt

из ресурсов соревнования.

Файл docs.txt содержит документы
Файл queries.enumerate.txt содержит запросы
Файл objects.enumerate.txt содержит соответствие ObjectId паре запрос-документ

Формат objects.enumerate.txt:

ObjectId,QueryId,DocumentId
1,1,D0000003
..

если для решения будет использован скрипт запуска докера из репозитория, то результат -- output.csv -- появится в каталоге где находится скрипт.

состав репозитория

README.md -- эта инструкция

hw_boolean_search.py -- скрипт для решения

start.sh -- скрипт для запуска docker контейнера (linux/mac)

start.bat -- то же для windows

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 90.1%
  • Shell 5.0%
  • Batchfile 4.9%