В среду, 19 марта, c 16 до 18 часов, в 316 ГУК. Рассмотрим внутреннее
устройство полнотекстового поиска на примере поиска по почте Mail.Ru.
Будут освещены алгоритмы токенизации (разбиения текста на отдельные слова),
строение обратного индекса и бинарного лога, хранение числовых и текстовых
зон, применение фильтров, способы ранжирования, процесс подсветки результатов.
Также разберем вопросы эксплуатации — различные метрики, позволяющие оценить
качества поиска, способы мониторинга его работоспособности, механизмы
обеспечения отказоустойчивости и профилирование запросов. В завершение
поговорим об саджестах (поисковых подсказках) и строении их индекса.
О спикере: Дмитрий Калугин-Балашов, в 2008 году окончил факультет Информатики
и вычислительной техники Сибирского федерального университета, специальность
«Прикладная математика». В 2012 году окончил магистратуру факультета
Информатики и телекоммуникаций Сибирского аэрокосмического университета им.
академика М.Ф. Решетнева по направлению «Теоретическая информатика». За
2007-2012 годы опубликовал 10 научных работ, в том числе монографию
«Алгебраические уравнения и системы над некоммутативным кольцом».
C 2008 по 2011 преподавал курсы «Высшая математика», «Дифференциальные
уравнения», «Информатика» в университетах Красноярска.
С 2009 года работает в сфере высоконагруженных систем.
С 2011 года занимается разработкой поиска по почте в Mail.Ru.
Результаты работы отразились в докладах на конференциях «Форум технологий
2013», «Форум технологий в Казани», «Форум технологий в Нижнем Новгороде»,
«Highload++ 2013».