13 Окт 2009Категория: Обзоры Автор:

17 новинок поисковых технологий

9-ая статья, из умершего блога, пожалуй одна из самых интересных

Перевод статьи на RRW. Вообще люблю их статьи про поиск, всегда много нового узнаю. Чего и вам желаю.

На данный момент уже существует великое множество новых поисковых машин (более ста) — каждый из них привносит какие-то новые черты в поиск. Здесь приведен список 17 новинок поисковых технологий, которые, по нашему мнению, окажутся разрывными в будущем. Эти инновации попадают под четыре категории:

— Пре-процессинг поисковых запросов
— Источники информации
— Улучшение поисковых алгоритмов
— Визуализация результатов и пост-процессинг

Пре-процессинг поисковых запросов

Главной целью этого типа нововведений является попытка определить намерения пользователя (путем каких-то логических действий) и использовать эти знания для повышения качества поисковых запросов.

1. Natural Language Processing
По-нашему — обработка данных на естественном языке. Пионером этой штукенции был Ask.com. На данный момент самыми успешными являются Hakia и Powerset. Они оба (правда, чуть разными путями) пытаются понять семантику значения, которое стоит за запросом пользователя. Коренное отличие от Google в том, что эти поисковики учитывают то, что стоп-слова могут быть весьма существенными. Например, связующие слова для, о, в, из, которые Google не рассматривает.

2. Персональная релевантность поиска (персонализация)
Уже давно всем стало ясно, что “затачивание” поискового запроса под личные интересы и требования, приводит к более релевантным результатам поиска. Google такую технологию поддерживает в поиске, однако только в случае, если у вас есть свой аккаунт и вы сейчас под ним залогинены. Bполне можно понять, что многие юзеры таким добром не пользуются, потому как никому не хочется, чтобы каждый их шаг (хотя бы даже в поиске) был по сути записан кем-то. [Даже Джон Бателль (автор книги “Поиск: как Google и его конкуренты переписали правила бизнеса и изменили нашу культуру”) согласен с тем, что такой подход немного пугает, хотя Мэтт Каттс с ним не согласен].

Необходимо найти верный способ персонализации, пусть даже и анонимный. В более широком смысле, персонализация сразу по нескольким сайтам — вещь еще более полезная. Collarity — как раз тот поисковик, который с этой функцией справляется.

3. Специализированный поиск
Простая, но весьма мощная особенность. К примеру, SimplyHired — вертикальный поиск в сфере работы и поиска работы. У него есть некоторые предустановленные поисковые фразы, например, “работодатели, лояльные к возрасту”, “работодатели, любящие собак” т.п.

Источники информации

Поисковики этого типа сосредоточены на источниках данных: дополнительные типы контента и помощь в ограничении источников данных, дабы повысить надежность поисковых запросов (во многом — уменьшение количества спама)

4. Новые типы контента
Вполне красноречивым признаком современности является то, что подростки обмениваются видео и музыкой по телефону так же, как и посылают sms. В интернете новые медиа-приложения уже стали распространяться с огромной скоростью — изображения, аудио, видео, TV — вместе с семантической информацией о них.

Поэтому поисковым машинам необходимо нагонять и начать поддерживать поиск по всем этим типам контента. Некоторые специфические поисковики уже с этой задачей справляются:

— поиск медиа: аудио (Odeo, Podzinger), видео (Youtube, Truveo), ТВ (Blinkx), изображения (Picsearch, Netvue).

— поиск спец. контента: блоги (Technorati), новости (Topix), объявления (oodle).
Естественно, Google очень и очень акивен в этой нише (G.Blogsearch, G.Video, G.News (вполне в духе гугла было назвать карты не maps, а spots… почему не сделали?))))

В идеале было бы хорошо забабахать один поисковик по всем этим типам контента. Так делает Searchmash (гугловский поисковик, очень хорош) и Retrevo.

5. Ограниченные источники информации
Одна из вещей, который больше всего огорчают пользователей поиска — это спам. Маркетологи становятся все более прошаренными, и их seo-политика вместе с ними. Соостветственно, качество результатов ухудшается (Гуглу, ессно, достается больше всех).

Поисковики, которые черпают информацию только лишь из достоверных источников эту проблему устраняют. Но, конечно, они сужают сферу поиска. Но результаты зато качественные. Wikipedia, National Geographic, научно-образовательные сайты.

Наилучшим примером такого поисковика является A9.com. Его результаты берутся из нескольких источников, довольно разнообразных, а юзер получает подробные результаты. G.Co-op и Yahoo!Search Builder дают возможность и третьей стороне реализовывать такой подход. Rollyo — пионер такого поиска.

6. Тематический (вертикальный) поиск
Фокусируясь на определеной вертикали, поисковая машина выдает наиболее точные результаты, заточенные под определенную тематику. Существует огромное множество вертикальных поисковиков (я когда-то тоже писала об этом и переводила).

Улучшение поисковых алгоритмов

Основной упор именно на улучшение поисковых алгоритмов для повышения релевантности поиска.

7. Параметрический поиск
Этот тип поиска ближе к запросам к базе данных, нежели к текстовому поиску, и отвечает на разные типы вопросов. Параметрический поиск помогает найти решение проблемы, а не текстовый документ как таковой. Shopping.com — позволяет искать одежду по стилю, бренду, цене, материалу. Поиск работы — Indeed — может сузить результаты поиска до вашего zip-code (индекса), а GlobalSpec позволяет вам уточнять и изменять параметры при поиске инженерных компонентов. Параметрический поиск — обычная черта вертикальных поисковиков.

Google уже внедрил эту фичу в свой обычный поиск — на странице с расширенным поиском — и именно это, собственно, и уменьшает его полезность. Лучше всего такой поиск проявляет себя, если просматривая результаты поиска, можно будет настраивать дополнительные параметры, или если вы ограничиваете поиск определенными вертикалями.

8. Участие толпы
Брэдли Хоровиц из Yahoo! верит в то, что социальный момент будет играть большую роль в поиске в будущем. Пользовательский вклад поможет поисковым системам получать выгоду от т.н. “мудрости толпы” и, таким образом, получать качественные результаты. Конечно, результаты могут быть и неверными, в случае, если персональная информация, введенная пользователями, может быть сворована/сфальсифицирована или не будет независимой.

Среди множества поисковиков, del.icio.us, похоже. предоставляет наиболее качественные поисковые возможности, основанные на таком подходе (здесь можно также почитать о различных подходах к поиску информации, основанных на “мудрости толпы”). Другие системы, основанные на “репутации” — StumbleUpon, Squidoo, About.com и Википедия. По сути своей, они, конечно, не поисковые системы. Но они все способствуют нахождению информации.

9. Участие человека
Этот пункт сюда включен для полноты картины. Такие поисковые машины как ChaCha экспериментируют с использованием человеческих операторов для ответа на вопросы пользователей. Yahoo!Answers является другим вариантом такого поиска (хоть и спорно, потому как отвечают другие пользователи, а не люди, работающие в этой системе).

Трудно предположить, каким образом ChaCha и ей подобные сервисы будут развиваться, если только она не усилит влияние коммьюнити.

10. Семантический поиск
Некоторые из весьма интересных недавних разработок в поиске имеют много общего с извлечением интеллекта (хотя тут бы я сказала смысла) из Веба. Эти приложения — только начало, они несут в себе огромный потенциал Семантик Веба. Пионер в этой сфере — Monitor110, который пытается вытянуть финансовую информацию из сети, которая может пригодиться инвесторам. Spock, поиск людей, сейчас в закрытой бета-версии, который планирует иметь 100 миллионов профайлов к моменту открытия. Riya, визуальная поисковая система (то есть поиск по изображениям), чья технология различает лица и текст в изображениях.

11. Поддержа “открытий”
Рука об руку с перcонализацией и технологией “агентов” (об этом будет ниже) идут “Открытия”. Это священный грааль для поиска. Хотя спонтанные поиски сейчас и в моде, все же большинство пользователей имеют достаточно стабильные интересы на протяжении долгого времени. Было бы здорово, если бы можно было открывать для себя какие-то новые источники информации, особенно высококачественные фиды.

Уже видны какие-то осторожные шаги в этом направлении, которые совмещают поиск и мощь RSS. Например уже можно использовать rss фид для многих типов запросов в Google и Yahoo!. Bloglines поддерживет функцию “рекомендованные фиды”. Читатель фида рекомендует новые блоги и фиды в сфере ваших интересов, основываясь на содержимом вашего OPML файла. Другим игроком является Aggregate Knowledge, который предоставляет специальные сервисы для работающих в области торговли и медиа, путем анонимного собирания информации с сайтов. За этой областью нужно следить, она довольно интересна.

Визуализация результатов и пост-процессинг

Эти усовершенствования делают упор на визуалиацию результатов поиска в той или иной форме и на дальнейших действиях, которые поисковая машина предлагает юзеру произвести с результатами поиска.

12. Классификация, кластериация, облака тэгов.
Такие поисковики как Quintura (аналог изначально российского проекта) и Clusty предлагают кластеризацию результатов, основываясь на тэгах/ключевых словах. Это позволяет пользователям не только видеть результаты поиска но визуализировать кластеры результатов и, что важно, отношения между ними. И эта мета-информация может помочь юзеру понять смысл этих самых результатов и найти новую информацию по этой теме.

13. Визуализация результатов
Человеческому мозгу легче воспринимать, понимать и запомнать изображения, нежели текстовую информацию. Если брать более общий уровень (в отличие от кластеризации), то специализированные интерфейс-парадигмы для отображения результатов поиска и отношений между ними могут передать больше смысла юзеру и сделать «картинку» более понятной и легкой для дальнейших действий.

Этот подход особенно хорошо работает со специфическим контентом. Например вертикальная поисковая система. Визуальный Тезаурус от Thinkmap, VizServer от Inxight Software и HeatMap от системы поиска по недвижимости Trulia – это примеры новых подходов к визуализации информации, хотя исследования в этой сфере еще зарождаются. Вариант чуть попроще – Housing Maps – мэшап-проект, отображающий нахождение доступной недвижимости.

14. Очистка и фильтрация результатов.
Вполне естественным шагом после получения списка результатов является просмотр результатов, таким образом отсеивая ненужные результаты. Это отличается от обычного «выдергивания» ключевых слов, к которому нас приучил Google; это не просто эксперименты с ключевыми фразами для поисковых запросов, это скорее попытка именно профильтровать результаты (нечто похожее на добавление условий к оператору «где» в SQL запросе) – это поможет пользователям сузить свои результаты и прийти именно к желаемому результату.

Фильтрация запроса – это критическая часть процесса поиска, хоть она и не получет того внимания, которое заслуживает. Прекрасный пример – медицинская поисковая система – Healia, которая позволяет пользователям выбирать поисковые результаты, используя демографические фильтры. Да, демография, как и пол, возраст, раса может оказывать существенное влияние на поиск результатов симптомов, болезней и лекарств. Есть и другие фильтры, основанные на уровне сложности, источниках и типах найденных результатов.

Google недавно ввел новую пимпочку внизу серпа (страницы с результатами поиска) «Искать в результатах поиска», чтоявляется шагом в правильном направлении. Результаты также могут быть отфильтрованы, используя OneBoxWidget и относительно новый PlusBox Feature. Со временем можно ожидать, что эта функция будет существенно доработана и усложнена.

15. Платформы результатов поиска
Социальные медиа и онлайн контент становятся все более популярными, соответственно, и выбор того или иного пути потребления этой информации юзером существенно увеличился. Естественно, и поисковые машины теперь должны поддерживать разнообразные ходовые платформы: браузеры, мобильные устройства, RIA (Rich Internet Applications – новомодные технологии, мощные интернет-приложения, самые распространенные из которых – Flash, Ajax), RSS, почта и т.п. Связь и общение становятся вездесущими, поэтому не исключено, что пользователи будущего будут коннектиться к поисковым машинам посредством еще более разнообразных источников – например, система TiVo, которая будет искать фильмы или программы по вашим интересам, или система Nintendo, которая будет искать информацию для геймеров, а то даже и холодильик – поиски рецептов через сенсорный экран на дверце холодильника (вот это мощь! 😀 )

Некоторые существующие поисковые системы уже поддерживают дополнительные платформы, кроме обычных браузеров и мобильных устройств. Plazoo довольно долго предоставлял rss фиды результатов, Quintura начинался с загружаемого RIA приложения, и только теперь этот поисковик имеет непосредственно веб-интерфейс.

Самый легкий способ предоставить поддержку различных типов результатов – сделать открытый API, что позволит третьей стороне (девелоперам) разрабатывать собственные интерфейсы для специализированных платформ. Alexa Web Search Platform был одним из первых (хоть здась вы и испльзуете API на свой страх и риск). Oodle, Zillow, Trulia также предоставляют свои API.

16. Родственные сервисы
Технически, это не совсем часть поисковой технологии. Но как бы то ни было, когда вы вводите запрос – всегда появляется следующий естественый шаг, который следует при предоставлении результатов поиска. То есть, когда появляются результаты вашего поиска, вы хотите применить найденные результаты. Это неотъемлимая часть процесса поиска.

Но, как ни странно, эту часть еще пока не взял в оборот, то есть, на нее не сильно обращают внимание поисковые системы. Разве только контекстную рекламу впихивают. А вот прекрасным примером такого подхода являетя специализированый поисковик с очень интересным названием The Web’s too Big, который позволяет пользователям искать информацию на сайтах PR агентств, которые находятся в Соединенном Королевстве. Они предлагают интересную штуку: пользователи могут ввести подробности своего PR запроса и предоставить эту информацию во множество PR агентств одним кликом. Похожее есть и в поисковике по недвижимости Zillow, у которых имеется концепция Zestimate (an estimated home valuation computed by Zillow – оценка недвижимости этим сервисом) и Home Q&A (вопросы и ответы). Эти дополнительные сервисы увеличивают ценность и качество поисковых результатов, и тем самым привлекают пользователей.

Google, конечно, предоставляет дополнительные сервисы на некоторых своих «одразделениях» — например, функция «Find Business» на Картах. Но не в своем основном поиске.

17. Поисковый агент
Поисковые агенты довольно близки по идее к непрерывно продолжающимся (появляться и развиваться) сферам интереса и предоставлению результатов в виде фидов. Представьте какое-то программное обеспечение, которое функционирует как некий повторяющийся поисковый запрос и мониторит веб в поисках новой информации по заданной теме, собирая и расставляя результаты, убирая дубли, и предоставляя обновления виде кратких отчетов. Это отлично работало бы с определенным типом повторяющихся запросов, важных, но не срочных: например, таким образом можно мониторить новые открытые вакансии, новую недвижимость, которая подходит вам по всем параметрам, одежду, когда цена на нее снизилась и т.п.

Интересным поисковиком является Copernic – Copernic агент может автоматически посмотреть сохраненые поиски и предоставить отчеты для новых поисков, а также следить за обновлениями. Информационный агент от Connotate Technologies мониторит веб и автоматически определяет изменения. Заметку о поисковых агентах можно также прочтать здесь. В ней говорится о таких агентах как Allth.at, Swamii, Searchbots.

Заключение

Конечно же, Google не упустит своего. Точно так же, как он ввел персональный поиск в свой поисковый механизм, он продолжит внедрять какие-то из вышеописанных подходов, когда они будут становиться достаточно популярными. Например, вертикальный поиск – мощный инструмент, который Google обязательно будет внедрять.

Очень похоже на то, что в будущем обычная поисковя строка Гугла будет прятать за собой разнообразие поисковых систем. А с другой стороны, впихивание всех этих новомодных фич рискует усложнить архитектуру google (или любого другого поисковика) и поэтому какие-то изменения и компромиссы будет сделать довольно трудно. Вот в этой заметке также можно почитать об архитектуре для популярного поисковика, которые будет нести в себе большинство вышеописанных нововведений.
© SE la vie



Смотрите так-же:

    Обратите внимание

    Приспособа для фрезерования пазов
    stroitelstvo-domov.net
    Ремонт КПП от 2101 (установлена КПП 2107 старого образца)
    cross-roads.ru
    Pearson - Focus on Grammar – 3Ed Advanced Course for Reference and Practice Workbook, 2006 год
    store.cross-roads.ru

    Оставьте комментарий

    Необходимо войти что бы оставить комментарий.

  • Рекомендую

    Business Key Top Sites
  • Реклама