понедельник, 2 марта 2015 г.

Google хочет измерять важность сайтов по фактам, а не ссылкам

Исследовательская команда Google опубликовала на arXiv.org статью "Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources", в которой рассматривается вопрос вычисления для определённой веб-страницы специальной репутационной характеристики Knowledge-Based Trust (KBT). Планируется, что KBT должна стать основой для будущего алгоритма поисковой машины Google, выстраивающей сайты в соответствии с их «надёжностью».

Известно, что алгоритм ссылочного ранжирования PageRank определяет важность веб-страницы как число ссылок, ведущих на неё. Реальный поиск Google учитывает ещё множество факторов, таких как наличие определённых слов на страницах сайтов, актуальность информации, местоположение пользователя, адаптивность к мобильным устройствам — всего таких факторов около 200. Считается, что обновление поискового алгоритма в сентябре 2013 года, известное как «Колибри» (Hummingbird), научило Google реагировать не только на ключевые слова, а и на контексты и образы, их сопровождающие. Прошлогоднее обновление алгоритма «Голубь» (Pigeon) привело к более релевантным результатам поиска с географически зависимой информацией.

Новый подход к ранжированию сайтов рассматривает важность веб-страницы как числовую характеристику достоверности фактов. Как и раньше, поисковый робот сканирует сайт, извлекает из него «утверждения», достоверность которых сравнивается с базой знаний Knowledge Vault. Эта база знаний, принадлежащая Google, сейчас содержит примерно 1.6 миллиарда фактов, автоматически собранных из интернета. Её главное отличие от более известной Knowledge Graph заключается в её «всеядности». Если Knowledge Graph использует в качестве источника информации заведомо надёжные Wikipedia и Freebase, то Vault «не брезгует» ничем и собирает информацию с абсолютно всех сайтов, из которых можно извлечь хотя бы что-то. На основе числа совпадений «извлечённых» фактов с хранящимися в Google Vault, и определяется достоверность ресурса.

На тестовых данных вероятностная модель, предложенная авторами работы, показала удовлетворительные результаты. Затем в автоматическом режиме были вычислены показатели KBT для 119 миллионов реальных веб-страниц. Дальнейшая проверка в ручном режиме показала, что и реальные данные вполне поддаются новой системе ранжирования. Как скоро результаты исследования затронут существующий поисковый алгоритм Google пока что неизвестно.

Комментариев нет:

Отправить комментарий