Информационный поиск: великий поиск знаний

В нашем современном информационном обществе данные, факты и знания имеют гораздо больший приоритет, чем полвека назад. Благодаря интернету информация становится все более доступной. Когда мы получаем доступ к информации, она извлекается из онлайновых источников, и именно здесь на помощь приходят поисковые системы. Как они находят информацию, которую предоставляют нам? Ответ на этот вопрос называется «поиск информации». Сбор информации — точнее, восстановление информации — является дисциплиной в информатике и информатике и, прежде всего, имеет большое значение для поисковых систем. Используя сложные информационно-поисковые системы, они распознают намерения, которые стоят за определенными поисковыми терминами, и находят соответствующие данные по поисковым запросам.

Содержание

История сбора информации
Информационный поиск — определение
Различные модели
Булева модель
Модель векторного пространства
Вероятностная модель
Принципы работы или сбор информации
Частота термина, обратная частоте документа
Модификация запросов
Возврат и точность
Информационный поиск: Пример поиска

История сбора информации

Информационный поиск заключается в том, чтобы сделать существующие знания доступными. Так было еще задолго до наступления цифровой эры. Ванневар Буш, один из первых людей, серьезно задумавшихся о том, как человечество может сделать сконцентрированные знания более доступными в условиях постоянно меняющегося мира, на заре информационной эры (1945 год) опубликовал новаторскую статью под названием «Как мы можем думать». В статье было представлено видение будущего сбора и организации информации.

Буш увидел следующую проблему в науке: эксперты специализируются все больше и больше, им требуется все больше информации — но из-за дифференциации, вызванной этой крайней специализацией, информацию все труднее найти. Конечно, это было в то время, когда библиотеки все еще были организованы с помощью аналоговых бумажных коробок и больших каталогов. Поиск по ключевым словам был возможен только в том случае, если прилежный библиотекарь уже потрудился вручную проиндексировать все работы. Буш увидел способ сделать свою собственную информацию более доступной, используя доступные в то время технические достижения, такие как микрофильмы. Он хотел создать Memex — машину размером с письменный стол, которая служила бы хранилищем знаний и стала бы серьезным исследовательским оборудованием. Мемекс так и не был создан, но его технология (пользователи переходили от одной статьи к другой) может рассматриваться как предтеча гипертекста.

В 1950-х годах ученый-компьютерщик Ханс Петер Лун занимался именно задачей получения информации и разработал методы, которые актуальны и сегодня: полнотекстовая обработка, автоиндексация и селективная обработка информации (SDI) берут свое начало в его исследованиях. Эти методы были очень важны для развития Интернета, поскольку информационно-поисковые системы необходимы для навигации в океанах доступной информации в Интернете. Без них вы никогда не смогли бы найти ответы на интересующие вас вопросы.

Информационный поиск — определение

Цель информационного поиска (ИР) — сделать данные, хранящиеся в машинах, доступными для поиска: в отличие от добычи данных, которая извлекает структуры из записей в Интернете, ИР занимается фильтрацией конкретной информации из набора данных. Типичным приложением является поисковая система в Интернете. Информационно-поисковые системы решают две основные проблемы:

Неясность: Запросы пользователей часто бывают неточными. Поисковые термины, вводимые пользователем, часто оставляют простор для интерпретации. Например, те, кто ищет термин «банк», могут искать общую информацию о банковских услугах, а могут требовать указания ближайшего финансового учреждения. Проблема усугубляется, когда пользователи сами не знают, какую информацию они ищут.
Неопределенность: Содержимое хранимой информации иногда неизвестно системе, что приводит к тому, что пользователям представляются неправильные результаты. Это происходит, например, с омонимами — словами, имеющими несколько значений. Пользователь может искать не финансовое учреждение, а информацию о географическом объекте, связанном с реками.

Кроме того, информационно-поисковая система должна оценивать информацию, чтобы предоставить пользователям последовательность данных. Первый результат в идеале должен давать наилучший ответ на вопрос пользователя.

Различные модели

Существуют различные модели информационного поиска, которые не обязательно являются взаимоисключающими и могут комбинироваться друг с другом. Некоторые из этих моделей незначительно отличаются друг от друга в деталях. Тем не менее, все они могут быть условно разделены на три группы:

Модели теории множеств: Отношения сходства определяются операциями над множествами (булева модель).
Алгебраические модели: Сходство определяется парами: документы и поисковые запросы могут быть представлены в виде векторов, матриц или кортежей (модель векторного пространства).
Вероятностные модели: Эти модели устанавливают сходство, рассматривая наборы данных как многоступенчатые случайные эксперименты.

Ниже мы представим три архетипические модели, использующие эти категории. Все существующие модели, описанные выше, являются гибридами трех типов. Таким образом, расширенная булева модель обладает свойствами теории множеств, а также алгебраических моделей.

Булева модель

Самые популярные поисковые системы в Интернете основаны на принципе булевых ссылок. Это логические связи, которые помогают пользователям уточнить и конкретизировать поиск. С помощью AND, OR или NOT (И, ИЛИ, НЕ) или соответствующих символов ∧, ∨ или ¬ можно задать запрос, когда, например, оба термина должны появиться в результате, или контент с определенным термином должен быть скрыт. По такому же принципу эти ключи работают и в Google. Недостатком этой системы является то, что она не содержит системы ранжирования результатов.

Модель векторного пространства

При математическом подходе контент также может быть представлен в виде векторов. В модели векторного пространства термины отображаются как оси координат. И документы, и поисковые запросы получают определенные значения, связанные с термином, и могут быть представлены в виде точек или векторов в векторном пространстве. Впоследствии оба вектора сравниваются друг с другом. Вектор (или содержимое), наиболее близкий к вектору запроса, должен оказаться первым в рейтинге результатов. Недостатком здесь является то, что без булевых операторов никакие термины не могут быть исключены.

Вероятностная модель

Вероятностная модель использует теорию вероятности. Каждому документу присваивается значение вероятности. Затем результаты сортируются в соответствии с вероятностью, с которой они соответствуют каждому запросу. Насколько высока вероятность того, что определенный контент соответствует пожеланиям пользователя, определяется так называемой «обратной связью по релевантности». Например, пользователям может быть предложено оценить результаты вручную. При следующем идентичном поиске модель покажет другой (возможно, лучший) список результатов. Недостатком этой процедуры является то, что она начинается с двух требований, ни одно из которых не является гарантированным. С одной стороны, модель предполагает, что пользователи готовы участвовать в работе системы, давая обратную связь. С другой стороны, теория также предполагает, что пользователи просматривают результаты независимо друг от друга, оценивая содержание каждого источника так, как если бы он был первым, который они прочитали в процессе поиска. На практике пользователи всегда оценивают информацию на основе ранее просмотренного контента или имеющихся знаний.

Принципы работы или сбор информации

При поиске информации используются различные методы и технологии, независимо от моделей. Цель всегда состоит в том, чтобы упростить поиск информации для пользователя и предоставить более релевантные результаты.

Частота термина, обратная частоте документа

Важность термина для поискового запроса рассчитывается путем сочетания частоты встречаемости термина и обратной частоты документа. Значение сокращенно обозначается как tf-idf.

Частота термина: Плотность поисковых слов показывает, как часто термин встречается в документе. Однако частота появления термина не может быть единственным показателем релевантности текста, поскольку некоторые тексты могут содержать слово несколько раз из-за длины, а не из-за релевантности содержания. Поэтому частоту следует рассчитывать в зависимости от объема документа. Для этого частота появления поискового термина делится на частоту появления самого высокочастотного слова (например, «и»):

Inverse Document Frequency: В IDF рассматривается весь текст, а не только один документ. Слова, которые встречаются только в нескольких документах, будут иметь более высокую релевантность, чем термины, которые встречаются почти во всех текстах. Например, термин «обратная частота документов» имеет более высокое значение, чем «и».

Комбинируя эти два теста, информационно-поисковые системы могут обеспечить лучшие результаты, чем если бы они использовались по отдельности: если бы важна была только частота терминов, то при поисковом запросе «Телешоу с мышкой» приоритет отдавался бы контенту, в котором встречаются слова «the» и «with». Это было бы явно бесполезно. Напротив, если используется обратная частота документа, то «ТВ-шоу» и «мышь» гораздо более важны для поиска и распознаются как реальные поисковые термины.

Модификация запросов

Основной проблемой при сборе информации является поведение самих пользователей: дико неточные запросы приносят неверную или неадекватную информацию. Чтобы избежать этого, ученые-информатики ввели модификацию запроса — систему, которая автоматически изменяет введенный поисковый запрос. Это означает, например, что используются синонимы, которые дают лучшие результаты. Для поиска таких синонимов система использует тезаурусы и отзывы пользователей. Чтобы не зависеть от сотрудничества с пользователем, можно использовать так называемую «псевдообратную связь». С помощью этого метода система считывает связанные термины из лучших результатов поиска и оценивает их как релевантные для поиска. Запросы могут быть расширены или улучшены с помощью следующих методов:

Устранение стоп-слов: Стоп-слова — это те выражения, которые вносят лишь незначительный вклад в содержание текста. Имеет смысл не рассматривать слова типа «and» или артикли типа «the» как репрезентативные для содержания документа.

Идентификация групп из нескольких слов: Группы слов должны быть распознаны как таковые. Такая идентификация гарантирует, что поисковая система также рассматривает части составных слов как релевантные.

Сокращение корня и формы корня: Для более эффективного поиска необходимо сокращать слова до их корня. В противном случае инфинитивные формы слова не будут правильно отображаться в результатах поиска.

Тезаурус: В дополнение к терминам, используемым в соответствующем документе, информационно-поисковая система также должна учитывать синонимы слова как релевантные. Это единственный способ гарантировать, что пользователи найдут то, что ищут.

Возврат и точность

Эффективность информационно-поисковой системы обычно рассчитывается с помощью факторов recall rate и precision. Оба показателя представлены в виде коэффициентов.

Отзыв: Насколько полными являются результаты поиска? Для этого количество «найденных, релевантных» сравнивается с количеством «не найденных, релевантных документов». Коэффициент, другими словами, показывает, насколько вероятно, что релевантный документ будет найден:

Точность: Что именно является результатом поиска? Для того чтобы это выяснить, приводится количество найденных релевантных документов к количеству найденных нерелевантных документов. Коэффициент показывает, насколько вероятно, что найденный документ релевантен:

Оба значения в основном находятся в диапазоне от 0 до 1, где 1 было бы идеальным значением. Кроме того, на практике идеальные результаты для обоих коэффициентов исключены. Те, кто увеличивает полноту результата поиска, делают это за счет точности и наоборот. Кроме того, в качестве дополнительной величины может быть рассчитан коэффициент выпадения (т.е. коэффициент умолчания): этот коэффициент отражает коэффициент ложных срабатываний; он определяется отношением найденных нерелевантных документов к нерелевантному содержимому, которое не было найдено. Recall и precision можно представить в виде диаграммы с осями, в которой каждая из двух величин занимает по одной оси.

Информационный поиск: Пример поиска

Каждая поисковая система в Интернете основана на поиске информации. Google, Bing и Yahoo являются примерами выдающихся компьютерных систем сбора информации. Однако, чтобы показать, как IR работает на практике, имеет смысл взять более простой пример. Возьмем матрицу поиска в (очень маленькой) детской библиотеке. Во всех книгах есть животные, но мы хотим найти только те книги, в которых есть слоны и жирафы, но нет крокодилов. Поиск с помощью булева метода будет выглядеть следующим образом: слон И жираф НЕ крокодил. Результат поиска может быть только 1 или 0: встречается ли термин или нет?

Результатом поиска будут «Тим и Олли в зоопарке» и «Майкл и сумасшедший цирк». Однако это не взвешивает результаты. Какая книга больше посвящена слонам, чем жирафам? Чтобы выяснить это, система может определить частоту термина и обратную частоту документа.

«Тим и Олли в зоопарке», вероятно, является более правильным ответом при поиске текста с жирафами и слонами, чем «Майкл и сумасшедший цирк», и должен занять первое место в результатах поиска. Метод, который мы использовали здесь, работает только в том случае, если условия поиска фиксированы (контролируемое индексирование). Это может произойти, например, в специализированных базах данных, где пользователи обучены тому, как использовать поисковую маску. В нашем примере модификация запроса имела бы смысл: кроме слова «слон», положительные результаты дал бы поиск «пахидермы», а также грамматических вариантов этих слов.

Совет

Во Всемирной паутине существует гораздо больше поисковых систем, чем просто Google. Например, альтернативы Google часто уделяют больше внимания конфиденциальности пользователей