SeoNews.com.ua - SEO & Search Engine News
Поисковая оптимизация
Популяризация токенов способна значительно повысить уровень безопасности в сфере электронной коммерции
Эксперты предлагают заменить передаваемые на торговые серверы финансовые данные электронными идентификаторами, не имеющими ценности для злоумышленников.

Как сообщает издание Network World со ссылкой на доклад одного из крупнейших производителей токенов безопасности, широкомасштабное внедрение такой меры, как дополнительные этапы идентификации, способно в значительной степени сократить количество успешных хакерских атак в сфере электронной коммерции.


Персональные данные граждан РФ будут храниться на российских серверах
Депутаты предлагают изменить дату вступления в силу закона «О персональных данных», согласно которому соцсети и сервисы электронной почты будут обязаны хранить личную информацию пользователей на российских серверах.

Как сообщает издание "Известия", депутаты Госдумы РФ выступили с предложением внести некоторые коррективы в закон «О персональных данных», согласно которому социальные сети и сервисы электронной почты будут обязаны сохранять информацию о конфиденциальных данных граждан РФ на серверах, которые располагаются на территории России. Указ был подписан В. Путиным в июле текущего года, и вступает в действие 1 сентября 2016 года. Тем не менее, госчиновники предлагают ускорить процесс и узаконить перенос личной информации пользователей уже с 1 января следующего года.

Пользователям Wi-Fi в московском метро скоро придется регистрироваться
По просьбе руководства столичного метрополитена компания «Максима Телеком» разработала программное обеспечение, посредством которого будет происходить аутентификация пользователей.

В скором времени все желающие воспользоваться услугами Wi-Fi в Московской подземке смогут сделать это только по регистрации. По просьбе администрации метро компания «Максима Телеком» разработала ПО для аутентификации пассажиров. Новая система будет распознавать посетителей подземки по IMEI-номерам их девайсов, пишут «Известия».

Зарубежным компаниям могут ограничить доступ к российским гостайнам
По предварительным данным, лишиться соответствующей лицензии могут четыре крупнейших аудитора - Deloitte, EY, KPMG и PwC.

Как сообщает издание «Ведомости» со ссылкой на собственных информаторов в двух компаниях из четверки крупнейших зарубежных аудиторов в РФ, отечественные силовые структуры усилили давление на компании и в перспективе могут лишить их возможности работать с данными, представляющими собой государственную тайну.
Началась последняя неделя льготной регистрации на конференцию CEE-SECR «Разработка ПО»
На конференции рассмотрят все аспекты разработки программного обеспечения.

Стартовала последняя неделя льготных летних цен на конференцию CEE-SECR «Разработка ПО» — одно из важнейших событий ИТ-индустрии в России.

До 31 августа регистрационный взнос будет ниже финальной цены на более чем 37%. Кроме того, продолжают действовать специальные предложения для студентов, аспирантов и групп от трех человек. Все скидки суммируются


Seo News
Facebook готовит исправление уязвимости, заставляющей iPhone совершать звонки
Разработчики социальной сети намерены устранить брешь в ближайшем обновлении мобильного приложения для iOS.

Как сообщают представители социальной сети

Facebook, разработчики компании намерены в ближайшее время выпустить обновление безопасности для своего мобильного приложения для iOS-устройств. Речь идет об опасной уязвимости, эксплуатация которой позволяет злоумышленникам удаленно совершать звонки со смартфонов iPhone, принадлежащих жертвам атаки. Для этого достаточно вынудить пользователя перейти по специально сформированной вредоносной ссылке.
95% электронных уведомлений от Facebook успешно шифруются

В Facebook отметили рост количества провайдеров, развертывающих шифрование с помощью STARTTLS.

95% посылаемых Facebook по электронной почте уведомлений, являются зашифрованными. Электронные письма шифруются с помощью свойства протоколов под названием «Совершенная прямая секретность» (Perfect Forward Secrecy, PFS) и строгой проверки подлинности сертификата. Об этом сообщил инженер Facebook Майкл Эдкинс (Michael Adkins), занимающийся вопросами неприкосновенности сообщений пользователей.

Microsoft представит Windows 9 в конце сентября

В ранней версии Windows 9 будет добавлено переработанное меню "Пуск" и, возможно, голосовой помощник Cortana.

В компании Microsoft планируют представить следующую версию ОС Windows во время специального события для прессы, которое состоится в конце сентября. Как сообщает издание The Verge, ссылаясь на собственные источники, в настоящее время представители корпорации собираются рассказать об изменениях в новой версии Windows, получившей кодовое наименование «Threshold» («Предел»), 30 сентября этого года. Напомним, что следующая версия Windows в настоящее время находится в разработке, и в Microsoft планируют выпустить предварительную версию ОС для разработчиков (Developer Preview) 30 сентября или позже.

Google AdWords забанит пейнтбольное и прочее оружие
Менее чем через месяц Google запретит рекламу оружия для страйкбола и пейнтбола, пневматических пистолетов, боеприпасов, обойм и портупей. Жалобы на такую рекламу ранее поступали в Google AdWords Help.

Google опубликовал предварительную версию изменения политики, которая в настоящее время позволяет рекламировать такие товары на AdWords.

Вот образец письма, отправленного рекламодателям AdWords:

«Уважаемый рекламодатель AdWords,

Мы извещаем вас об изменении правил размещения рекламы Google, которые могут повлиять на ваш аккаунт AdWords.


Уязвимость в Windows продолжает создавать опасность для пользователей
Наиболее часто уязвимость CVE-2010-2568 эксплуатировали на ОС Windows XP.

Согласно документу, опубликованному Лабораторией Касперского, злоумышленники продолжают эксплуатировать уязвимость CVE-2010-2568 , несмотря на “возраст” бреши. Недавно Лаборатория Касперского обнаружила десятки миллионов эксплоитов, направленных на устранение ошибки в период с ноября 2013 по июнь 2014 года, которые не устранили ее. Жертвами кибератаки стали 19 миллионов пользователей по всему миру.

Search Engine News
Подпишись на рассылку и будь всегда в курсе наших новостей.

Илья Сегалович: «Как лингвистика помогает поисковой системе понять пользователя?»

Илья Сегалович: «Как лингвистика помогает поисковой системе понять пользователя?»
В Европейском университете Санкт-Петербургa 3 апреля прошла встреча с одним из основателей компании «Яндекс» Ильей Сегаловичем, посвященная теме «Как лингвистика помогает поисковой системе понять пользователя?».
При общении пользователя с поисковой системой возникают две глобальные задачи: правильно трактовать запрос пользователя при обращении к поиску, и отобрать и представить наиболее полезные документы по запросу. В своем докладе Илья Сегалович рассказал, каким образом решается первая задача в Яндексе, и какие методы современной лингвистики при этом используются.

Для начала, решается задача ― как помочь пользователю набрать запрос. Задача этого этапа, этапа составления поисковых подсказок ― сделать так, чтоб поиск происходил не за два-три слова, а за две-три буквы, то есть, чтобы уже между второй и третьей буквами появлялись правильные подсказки. Над этим работает целая команда лингвистов, которая и строит эти подсказки.

К счастью, по словам Ильи, поисковые запросы хорошо структурированы и довольно стандартны, что касается запросов «купить», «скачать», «цена». Это структурирование достаточно простоe, и поисковая система легко догадывается, что люди набирают.

Далее пользователей можно разбить на несколько групп по интересам, в чем помогают поисковые сессии. Например, пользователю с интересами в соцсетях по введенной букве «в» будет предложен сайт «ВКонтакте», пользователю, интересующемуся музыкой, на «в» будет предложен Виктор Цой или Валерий Меладзе. Процесс этот ― чисто механический.

Сейчас результаты разбиваются на 400 тысяч разных интересов, разных кластеров. И для каждого кластера есть свой способ показа поисковых результатов.

После того, как поисковая система «помогла» пользователю набрать запрос, она должна «понять», на каком языке запрос сделан. Бывает разная письменность, разный набор символов для каждого языка. Например, и с точкой (і) в украинском языке. Есть характерные слова языка, характерные последовательности слов. И, кроме того, про пользователя можно узнать, что он пришел с IP-адреса, который принадлежит Турции, и у него в браузере установлен турецкий язык, как язык поискового интерфейса, и он зашел на турецкий домен yandex.com.tr. И большая вероятность того, что его нужно интерпретировать как пользователя, знающего турецкий язык. На основе всех этих факторов строится классификатор, для каждого языка свой, и два запроса для разных языков будут по-разному обработаны. У Яндекса есть проект «Суржик» для украинского и русского языков. Если понятно, что пользователь понимает оба языка, то по запросу ищутся и украинские, и русские документы, и результаты выдаются без фильтрации по языку. Это довольно редкая вещь, на год позже Яндекса Google сделал подобный проект для Филиппин, для испанского и английского языков. Но обычно выдача дается на одном языке.

Поисковику сложно понять запросы потому, что они, как правило, короткие, и синтаксис в них не такой, как в текстах. К тому же, в них много опечаток. Сложности еще и в том, что есть много неоднозначных интерпретаций. Например, запрос на английском языке не всегда предполагает англоязычные результаты поиска. По запросу «Facebook», сделанному из России, скорее всего, нужны будут результаты на русском.



Часто бывает так, что язык запроса не совпадает с языком искомого документа, например, испанское название песни, слова которой ― на английском. Соответственно, то, что запрос был по-испански, еще не значит, что нужно перестать искать неиспанские документы.

Понимание поискового запроса ― это использование всех интерпретаций этого запроса, использование всех вариантов выразить этот запрос другими способами.

Во-первых, следует сказать, какие языковые явления и как используются лингвистами, когда они строят расширение запроса.

Поисковое расширение ― это набор всех возможных переформулировок запроса с тем же самым смыслом. Это важно потому, что одну и ту же вещь часто выражают по-разному. Кроме того, исходный текст запроса может быть неточным, небрежным, его нужно как-то исправить, скорректировать, добавить более частотное его написание. И бывают достаточно узкие области, о которых пользователь мало понимает, использует, возможно, не те слова, и нужно это угадать, и подставить вместо них нужные слова.

Первое, что можно сделать ― это расширить запрос морфологическими формами слова, и это было сделано еще в 90-е годы. Нужно также бороться с омонимами (ужé―ýже―уже-й).Для каждого языка есть словарь, который наполняется автоматически. Строятся словообразовательные модели. Добавляются аббревиатуры. Запросы транслитерируются. Учитываются орфографические варианты, например, написание раздельно или через дефис.Бывает, что приходится иметь дело не только со словами. Например, «скачать» ― это не только слово, но и кнопочка, некий семантический эквивалент, в теге которого почти нет никаких слов.

Еще одна интересная задача ― это выделение и угадывание, когда человек имеет в виду конкретный объект реального мира с конкретным названием. Ресторан на Льва Толстого не имеет отношения к писателю, и поисковику нужно выдать адрес, заведение, показать его на карте. К тому же, 15% запросов содержат опечатки.

Во-вторых, нужно сказать о том, как помогает контекст, соседние слова запроса помогают избежать неоднозначности или ненужных расширений, борются с неточностями и ошибками. 27% случаев исправляются, благодаря контексту запросов.

Ничего нельзя заменять в запросе в нескольких случаях. Например, вообще ничего нельзя заменять в случае поиска цитат. Нельзя делать замены в случае переименованных объектов, терминов, многозначных слов.

В-третьих, нужно сказать, как технологически все устроено. Например, замену можно делать, исходя из переформулировки запроса, которую делает сам пользователь на основании выдачи по первому запросу. Когда есть вариант замены слова «а» на слово «б», происходит поиск документов по обоим вариантам. Далее сравнивается, в каких документах встречается слово «а» и слово «б», и про каждое слово набирается длинный хвост самых типичных его признаков. Сопоставляя их, видно, что эти хвосты друг на друга сильно похожи ― значит, эти слова синонимичны.

Также можно судить по переходу по страницам. Например, был запрос «а», потом был запрос «б». По двум разным запросам люди перешли на одну и ту же страницу. Это может служить сигналом того, что запросы ― об одном и том же, хотя и состоят из разных слов. И это можно использовать, чтобы сделать расширение запроса.



Всего получается 150 миллионов гипотез. После применения статистики остается 100 миллионов. А дальше с учителем, в последнее время уже без учителя, разными автоматическими целевыми методами подбирается такой алгоритм, такой классификатор, который на основе всех признаков принимает решение, что одно слово на другое заменить будет хорошо. От этого выиграют все, и никто не проиграет.