Народный блоггер

Ответ Gansikу на его «плохо»

Облако интернет

Ответ на комментарий к статье «Поиск отдыха и развлечений»

Конкретные результаты поиска, конечно, зависят от того, какой контекст проиндексирован.
В настоящее время списки сайтов для индексации в нашей системе проходят отбор.

Что касается подъема по частоте вхождения искомых слов — то, поиск по одному слову с точки зрения любой оптимизации выглядит, мягко говоря, не корректно или даже глупо…
Попробуем сделать аналогичный запрос на гугль, яндекс или гого:
http://www.google.com.ua/search?hl=uk&q=%D0%9C%D0%B0%D0%BB%D1%8C%D1%82%D0%B0&btnG=%D0%9F%D0%BE%D1%88%D1%83%D0%BA+Google&meta=&aq=f&oq=

http://yandex.ru/yandsearch?p=0&text=%D0%9C%D0%B0%D0%BB%D1%8C%D1%82%D0%B0&lr=187

http://gogo.ru/go?q=%CC%E0%EB%FC%F2%E0&

Что мы видим на первом месте — оплаченные сайты, ссылки на википедию (тоже поднятые искусственно), а потом?

Потом – все те же высокочастотные вхождения одного искомого слова, но оценить их число труднее из-за огромного кол-ва ресурсов. Однако, по числу вхождений слова «Мальта» в заголовок ресурса понятно – что и гугль и яндекс используют этот показатель, как один из основных, который основан на запросе пользователя (ведь при запросе из одного слова очень трудно найти другие). И у гугль и у яндекс и у гого — на первых страницах (не считая явно искусственно поднятых) в заголовках 4-5 вхождений искомого слова «Мальта», но, начиная с 30-й страницы их число уменьшается до 2-3 и, начиная с 50-й – уже 1-2…

Оценить, как сменяется число вхождений искомого слова в контенте ресурсов — сложнее, хотя косвенно, даже по представленному в подсветке фрагменту ресурса – подтверждается аналогичная частотная закономерность.
Так что бесспорные монстры глобального поиска, такие как гугль, тоже «рассчитывает» на «доморощенных оптимизаторов» при обработке запросов из одного слова, разница лишь в том, что объемы ресурсов данных систем в сотни тысяч раз превышают наши скромные возможности. Огромным системам типа гугль приходится задействовать для отбора горстки ресурсов, доступных для показа (сравните, по запросу «Мальта» гугль находит около 18 500 000 ресурсов, но доступны для просмотра лишь около 1000 — что составляет 0.0054% от общего числа найденных/проиндексированных) сложные эвристические механизмы и алгоритмы, суть которых составляет тайну технологии и исследуется во всем мире как «черный ящик», а работа которых в конечном итоге сводится к расчету неких, не зависящих от пользователя и его запроса, числовых показателей, которые сохраняются с индексом и используются для быстрого отбора этих тысячных процента… 

В данном конкретном случае, когда никаких больше критериев нет (только эти показатели, такие как индекс взаимного цитирования, индекс внешней ссылаемости, внутренней ссылаемости и их взаимные отношения, а также частоты вхождения искомого слова в различные части контента ресурса, такие как заголовок, ключевые слова и тп…) – они являются основой для ранжирования списка ресурсов. Подобные результаты, как правило, не особо интересуют пользователей, т.к. при чуть более детальном анализе хотя бы двух-трех страниц становится понятно, что объективного видимого критерия для оценки того – почему один ресурс попадает на первую страницу, а другой на третью – у пользователя нет, как нет и возможности оценить – на сколько более хороши те ресурсы, которые попали в тысячную процента от найденных (ту самую тысячу доступных для листания при постраничном просмотре) по сравнению с теми миллионами, которые в эту тысячу не попали…
Пользователь «доверяет» системе с одной стороны, с другой – ему больше ничего не остается, как пользоваться этой тысячей или попробовать некоторую другую глобальную поисковую систему…

Благодаря небольшому, который конечно в настоящее время нуждается в очень серьезной чистке, набору индексируемых сайтов, в нашей системе возможен т.н. «полный обход» с поиском во всех индексированных ресурсах именно тех, которые лучшим образом соответствуют запросу пользователя. Для оценки степени соответствия используется эвристический алгоритм, который и составляет основу нашей поисковой технологии и отличает наш поиск от других. Некоторые его пользовательские особенности и правила описаны в разделе помощь.

Большинство задач оптимизации под поисковые системы как раз и состоит в том, чтобы «вытащить» ресурс из миллионов в эту тысячу и даже на первые страницы результатов поиска…
Для нашей системы – это не актуально, т.к. особенностью поискового алгоритма является стремление к полному обходу и уточненному поиску среди контентов всех проиндексированных ресурсов, а не только в пределах горстки, отобранной из океана без учета запроса пользователя…
Для качественного тестирования, конечно, необходимо использовать запросы, содержащие несколько слов, от двух и более…

Например, запрос «Мальта» можно задать в виде
http://gorelax.ru/search?q=%D0%BE%D1%82%D0%B4%D1%8B%D1%85+%D0%BD%D0%B0+%D0%9C%D0%B0%D0%BB%D1%8C%D1%82%D0%B5&template=1&as_occt=176&sim_cnt=-1&site_cnt=2
что принесет уже более-менее интересные пользователю, интересующемуся отдыхом на Мальте, результаты, т.к. система может опираться на контекст запроса и выделять из нее полезную смысловую составляющую…
Аналогичные запросы к гугль, яндекс и гого
http://www.google.com.ua/search?hl=uk&q=%D0%BE%D1%82%D0%B4%D1%8B%D1%85+%D0%BD%D0%B0+%D0%9C%D0%B0%D0%BB%D1%8C%D1%82%D0%B5&btnG=%D0%9F%D0%BE%D1%88%D1%83%D0%BA&meta=

http://yandex.ru/yandsearch?text=%D0%BE%D1%82%D0%B4%D1%8B%D1%85+%D0%BD%D0%B0+%D0%9C%D0%B0%D0%BB%D1%8C%D1%82%D0%B5&stpar2=%2Fh1%2Ftm2870%2Fs2&stpar4=%2Fs2&stpar1=%2Fu0&lr=187

http://gogo.ru/go?q=%EE%F2%E4%FB%F5%20%ED%E0%20%CC%E0%EB%FC%F2%E5&

дают (за исключением рекламы и искусственно поднятых ресурсов) во многом аналогичные же результаты – прежде всего, имеющие в заголовке ресурса вхождение всех искомых слов, но в отличие от нашей системы, наличие цепочки, соответствующей запросу пользователя там не обязательно и в ранжировании не участвует…

Далее следуют ресурсы с вхождением искомых слов в контент, которые также не ранжированы относительно наилучшей цепочки и смысловой перестановки искомых слов, как это происходит в нашей системе.
В результате, на первой странице нашей системы никогда не появятся ресурсы, которым место, скажем на третьей, и, наоборот – на 5-й – не встретишь ресурс, у которого ест вхождения искомой фразы, аналогичные результатам первой страницы (что типично для таких систем, как гугль, которые не могут позволить себе качественное ранжирвоание с учетом контекста, а довольствуются лишь частотными составляющими искомых слов и некоторой их совместной близостью «кучностью»…

Также, подсветка подобных перегруженных искомыми словами сайтов в гугль осуществляется несколько хуже, без учета морфологии, а вырезаемые фрагменты не всегда являются наиболее представительными, что можно видеть, сделав этот запрос и сравнив его результат с аналогичным в нашей системе:
http://www.google.com.ua/search?as_q=%D0%9C%D0%B0%D0%BB%D1%8C%D1%82%D0%B0&hl=uk&num=10&btnG=%D0%9F%D0%BE%D1%88%D1%83%D0%BA+Google&as_epq=&as_oq=&as_eq=&lr=&cr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=country.turmir.com&as_rights=

http://gorelax.ru/search?q=%D0%9C%D0%B0%D0%BB%D1%8C%D1%82%D0%B0&template=1&as_occt=176&sim_cnt=-1&site_cnt=2&cid=0

Насчет «тырят контент у других» — приведите, пожалуйста, примеры – у кого был украден контент.

И, большая просьба, говоря о результатах поиска – приводить URL запроса, т.к. множество параметров может оказать существенное влияние на результаты, и обсуждение может стать беспредметным…

Большое спасибо за отзыв.

Геннадий Баранов, руководитель проекта Gorelax.ru

Ссылки по теме:

Related Articles

  • Я не специалист в поисковых системах и не рассчитывал на такой подробный ответ, спасибо 🙂

    Вот мои соображения по поводу написанного.

    1) гугл потому и не показывает весь свой индекс в выдаче что оставшиеся от 0.0054% ресурсы — полный отстой. ИМХО сайт turmir.com вообще не достоин выдачи в любом поисковике, так как на 99% состоит из контента заимствованного с других сайтов. В вашей выдаче этот сайт занимает почетное место на первых страницах по любым запросам.

    2) мне вообще не нравится идея ручного добавления сайтов в индекс. Во первых стимулирует добавлять сателиты типа turmir.com, где много_текста_мало_толку. При таком режиме мой блог ну никак не попадает в ваш индекс, хотя контент относительно Мальты у меня поинтереснее будет чем на turmir.com 😉

    3) я согласен что ваш поисковик отлично находит по запросам "отдых на Мальте", но я не понимаю логику, по которой линк http://www.altey-travel.ru/malta/ находится на первом месте в вашей выдаче.

    Ещё раз спасибо за ответ, и pls, не надо так подробно отвечать на мелкий коммент, а то мне аж неудобно стало что спровоцировал и отвлекаю от работы которой, я уверен, у вас много 🙂