Трудности перевода: как Яндекс понимает русский язык
Как известно, главная трудность «великого и могучего» заключается в том, что его интуитивное понимание нами порой радикально расходится с формальными правилами языка. Впрочем, с машинописным разбором ситуация еще хуже — ниже приведены примеры того, как понимание Яндексом словоформ русского языка расходится с человеческим восприятием, и как это отражается на поисковой выдаче.
По примеру бумажных словарей, в базах данных Яндекса слова сгруппированы по окончаниям в морфологические группы. К примеру, у слов «великий» и «могучий» в одинаковых формах будут одинаковые окончания, и по этому признаку они отправятся в одну общую морфологическую группу, которой будет присвоен определенный порядковый номер. В базах данных поисковика для слова будет указано только его начало, общее для всех словоформ, и его морфологическая группа. Выглядеть это будет примерно так: «Могучий. могуч*, группа 21». Надо сказать, что морфология Яндекса создавалась по этой модели около 10 лет назад, и с тех пор не претерпела значительных изменений, как, впрочем, и весь русский язык в целом.
В выдаче поисковика словоформы одно и того же слова будут выделяться жирным текстом. Но кроме них, выделяться также будут еще и синонимы слов, поэтому сказать точно, как Яндекс определил похожие слова — словоформами или синонимами — достаточно сложно. Значок «+» перед словом, вбитым в поисковую строку, на выдаче отключает подсветку синонимов, оставляя лишь подсветку словоформ. Однако, с некоторыми словами возникают сложности — чтобы понять, почему это происходит, нужно вспомнить, что большинство современных морфологических баз основаны на словаре Зализняка. В нем были введены морфологические группы, схема которых в некоторых моментах сильно устарела и смело может считаться архаичной — к примеру, глаголы и их причастия и деепричастия (купить/купивший) по Зализняку считаются словоформами, а глаголы совершенного и несовершенного (делать/сделать) вида считаются синонимами. И в Яндексе сохраняются все эти артефакты, в частности, для того, чтобы исправить разницу в человеческом и машинном восприятии словоформ. К примеру, в стандартном виде при вводе в поисковик запроса «делать дымовую шашку» жирным текстом выделяется в том числе и слово «сделать», однако, при добавлении плюса перед словом «делать» выделение со слова «сделать» снимается, а на слове «делать» остается.
В отличие от Яндекса, поисковик Google применяет морфологию без использования групп, а потому она лишена «артефактов», встречающихся у отечественного поисковика. Google при вводе в поисковую строку слова «сделанный» не ищет слово «сделать», для него вообще «делать» и «сделать» — это словоформы, а не подобие синонимов, как это принято у Яндекса. И неожиданно оказывается, что у «забугорного» поисковика Google русская морфология реализована правильнее, чем у его отечественного коллеги, причем происходит это во многом благодаря англоязычному происхождению Google. Его морфология правильнее, но это не означает, что она лучше — у кого из двух поисковиков выдача более релевантна, до сих пор остается спорным вопросом.
by Alex Steynert