Скот Хаффман (Scott Huffman) возглавляет наиболее малоизвестное подразделение Google, команду оценки, которая исследует каждое маломальское изменение в лучшей поисковой машине. И проводя около 6000 экспериментов ежегодно, он очень занят. Не говоря уже о том, что он также возглавляет подразделение мобильного поиска Google.
[...]
В: Чем занимается подразделение по оценке?
О: Мы пытаемся измерить каждым возможным способом насколько хорош Google, насколько хороши наши результаты поиска, насколько хорошо они удовлетворяют запросам наших пользователей. И мы разбиваем это на подзадачи сверху вниз всеми возможными способами - на 100 локалей [пары страна плюс язык], по различным жанрам (запросы по товарам, запросы здравоохранения, локальные запросы, длинные запросы, редкие запросы, очень популярные запросы) помножить на оценку, как мы делаем это же во Франции, Швейцарии и в других странах.
Также мы подходим к задаче с двух сторон. Во-первых. текущее положение, мы хотим знать, насколько хороши мы остаемся с течением времени и что меняется с течением времени, на основе репрезентативной выборки из потока запросов к нашему поисковику. Во-вторых, на группу возложена задача по совершенствованию поиска в части построения множества экспериментов и набора метрик, которые позволяют нам говорить, с определенной статистической уверенностью, насколько хороши предлагаемые изменения.
В: Объясните, пожалуйста, как происходит оценка?
О: Мы используем два основных вида оценочных данных. Первый, у нас есть множество асессоров со всего света, для которых у нас есть автоматизированная система. Они входят в неё и получают задания на оценку. Типичное задание таково: вот запрос, вы франкоговорящий в Швейцарии, вот URL, скажите нам, при помощи некоей шкалы, некоторых флагов и комментариев, насколько хорош этот URL для данного запроса.
Второй источник данных, используемый нами, - живые эксперименты над нашими пользователями. Типичный пример, где мы используем этот тип оценки чаще всего, - изменения в интерфейсе пользователя для поиска. Трудно догадаться, какова будет реакция людей на любое конкретное изменение интерфейса.
В: Как вы решаете, какой запрос и какой URL из результатов оценивать?
О: Это может быть то, что мы измеряем в данный момент. Это может быть некоторый эксперимент, новый фильтр, новый метод улучшения рейтинга чего-то, и это меняет результат для этого запроса, поэтому мы хотим получить оценку насколько хороши новые результаты.
Наш набор инструментов позволяет создавать любые нужные нам задачи оценки. Оценка хорошести URL по конкретному запросу - одна из задач, проводимых нами все время. У меня есть команда статистиков, являющихся экспертами как в построении тестов, так и в анализе получаемых результатов. Они называются аналитиками качества поиска, но на самом деле они статистики. Так что мы можем провести в некоторых случаях очень специфичные эксперименты по анализу какой-нибудь штучки.
В: Можете привести мне пример, как работает этот процесс?
О: Одним из типовых экспериментов, которые мы проводим во множестве, состоит в том, что мы берем тестовый набор запросов и прогоняем его на текущей системе и на новой системе и смотрим на те запросы, где что-то изменилось на этих запросах. Вы можете подумать, что это почти как QA [quality assurance, контроль качества], но в типичном QA баги это всегда в основном плохо. Тогда как исправление их - 100% хорошо.
В поиске это не работает на самом деле таким образом. Чтобы вы ни сделали, по крайней мере в рейтинге, в чем-то вы выиграете, и в чем-то проиграете. Т.е. если кто-то приходит и говорит: "Слушайте, у меня гениальная идея, давайте возьмем все документы, начинающиеся на Q, и поднимем их на три позиции". Очевидно, вы найдете некоторые запросы, по которым это поможет. Но, конечно же, в среднем это будет катастрофой.
В: Как это работает на практике?
О: Вот пример того, чем мы занимаемся достаточно часто. Мы постоянно работаем над вопросами, связанными со стеммингом [какие варианты слов должны быть частью запроса] и синонимами [какие синонимы должны быть частью запроса]. Итак, в недавнем прошлом у нас был проект для китайского языка, в рамках которого наши инженеры сделали систему более агрессивной в синонимии. Они говорили, что нужно сделать нашу систему более агрессивной в предложении вариантов... чтобы создавать более широкий список синонимов, выводимых в результатах.
Мы провели оценку, в течении которой асессоры просматривали и старые и новые результаты, и сообщали, что им нравится, но они не знали, какие результаты новые, а какие старые. Оценка была очень позитивна. Поэтому мы сказали, что это великолепно и говорит о том, что этот подход лучше для пользователей.
Но другое, что мы всегда делаем, это берем и смотрим более подробно и индивидуально на каждый негативный и позитивный момент результатов эксперимента. Являются ли позитивные моменты настолько позитивными, действительно ли пользователи заметят разницу? А может быть, что более важно, негативные моменты, насколько они важны, и сможем ли мы смириться с ними?
И в тот раз мы посмотрели на негативные моменты, и мы обнаружили, что несмотря на то, что суммарно изменение было очень позитивным, мы обнаружили вещи, не помню деталей, вроде как мы делали синонимами "маленький" и "большой", - безумные вещи. Реальный баг вроде этого было бы чрезвычайно неловко выпускать. Поэтому мы откатил это изменение сказав: ОК, вы не можете запускать это, но посмотрите на эти примеры, может сможете что-то изменить.
В: Часто ли встречаются модификации, связанные с языком или географическим положением, приходится ли вам делать модификации, специфичные для этих факторов?
О: Только иногда мы делаем изменения для одной локали. Почти все, что мы делаем, применимо для многих локалей одновременно. Иногда оно работает очень хорошо везде, кроме Испании, [и мы говорим:] "Что, черт возьми происходит?" Иногда это баг, иногда это что-то в том, как различный контент публикуется в этой стране.
В: Я полагаю, задача тестирования такого числа параметров может очень быстро стать неприступно сложной. Как вы с этим боретесь?
О: Мы пытаемся сфокусировать наши оценки на уровне страны или локали, куда приходится наибольшее воздействие [изменений]. Каковы наиболее затронутые запросы? Что касается запросов, на которые смотреть, результатов, которые отслеживать, мы идем аналогичным путем - случаи, которые появляются достаточно часто.
Вот поэтому статистики так необходимы. Одно из их служебных обязанностей, - помочь нам построить оценку, которую мы сможем выполнить, и получить выразительные результаты. Очевидно, что Google получает зиллионы запросов ежедневно. Многие из них никогда не встречались ранее. Многих из них мы более не увидим. Очевидно, что мы не можем оценить все запросы. Большая часть поисковой аналитики состоит в понимании на основе статистики, что что-то стоит поменять и оценивании результатов изменений.
У людей есть мода выбирать, что мы называем очень популярные запросы [чтобы сравнить поисковые машины]. Смотри, я набрал "цветы" в обоих поисковиках, этот показал мне фотографии цветов, а этот - ссылки на магазины цветов, и мне больше нравятся фотографии цветов. Но мы получаем множество запросов, много более редких чем этот, и мы считаем, что наше конкурентное преимущество проявляется именно здесь.
В: Т.е. вы считаете, что Google великолепен от середины до конца хвоста запросов?
О: Мы начинаем видеть различия даже на популярных запросах, где есть малоизвестный навигационный результат, т.е. действительно правильный ответ, который должен быть на первом месте - мы замечаем разницу между нами и нашими конкурентами, когда вы отходите от банальных запросов.
В: Как оцениваются персонализированные запросы - есть разница?
О: Мы проводим очень специфичные виды оценки для персонализации. Очевидно, что мы не можем использовать асессоров таким же образом, поскольку мы не знаем, что им нравится и мы не можем проникать в их личную жизнь. Мы склонны более использовать оценку по кликам для персонализации. Вы можете посмотреть в совокупности для всех залогиненных пользователей, к которым применяется тот или иной вид персонализации, выбрать из них небольшую группу для применения к ним какого-то новшества и сравнить, что происходит с ними и контрольной группой.
Множество наших новинок персонализации, появившиеся за последний год или два, вышли именно после такого тестирования, поскольку оно действительно и несомненно работает. Это приятно для меня, поскольку нам не пришлось обсуждать их долго.
Другая вещь, на которую мы тратим много времени это уровень страны. Во многих странах говорят на английском языке, но когда я, скажем, набираю запрос "банк", я ожидаю очень разные результаты находясь в США, нежели в Великобритании или Ирландии, Индии и Австралии. И сегодня Google выдает разные ответы в этих странах. Тоже самое применяется и внутри страны - в Далласе и Атланте вы получите разные ответы на запрос "Первая Баптистская церковь". Такие типы запросов, как правило, несколько сложнее для нас.
В: Кто они, эти асессоры?
А: Они не добровольцы. Им платят по соглашению через третьих лиц. Мы ищем людей с базовым образованим и базовыми навыками общения и, в частности, одним из наших требований к ним является некий базовый уровень английского языка. Кроме этого мы ищем людей очень широкого круга. Не столько технарей, сколько умеющих пользоваться Интернетом. Во время тестирования мы проверяем их способность выполнить определенные задачи, которые мы хотим им поручить, и следовать инструкциям.
В: Кто угодно может записаться на эту работу?
А: [Агентства по найму временных работников] находят их по объявлениям в таких местах как Craigslist. Главное, кто ответит на рекламное объявление о работе на дому в Люксембурге или где-то еще. Выплачивалось от 15 до 17 долл. в час в США, в зависимости от вашего местонахождения в стране. У меня двоюродная сестра была одним из оценщиков какое-то время и она жила в штате Южная Дакота. Она приезжала в гости и я сказал как бы в шутку: "У меня есть подработка для тебя, если тебе нужны дополнительные деньги". "Ой, и сколько платят?" "А, $16 или около." Она сказала: "$16 в час! Как я могу получить эту работу?" Она была очень взволнована.
В: Насколько асессоры важны по сравнению с автоматизированными методами? И поднимаете ли вы тревогу, если результаты оценки асессоров не совпадают с поведением пользователей?
О: Асессоры очень важны для нас на сегодняшний день. Автоматизированные методы или анализ поведения/кликов дают в действительности всего лишь вспомогательные данные. Оба несут в себе шум: асессоры делают ошибки, клики трудны в интерпретации, - пользователи кликают или не кликают по очень разным причинам.
Клики несомненно скажут вам, что пользователи реально делают, но вы получите оценку только на объеме, реальном соотношении количества кликов, но это трудно интерпретировать. Асессоры дают шум из-за ошибок, но мы можем углубиться на конкретных примерах. Для таких редких запросов мы можем сгенерировать примеры, которые наши инженеры по оценке смогут исследовать.
Там, где мы не получаем корреляции, является большим красным флагом. У нас были случаи, когда асессор положительно оценивал ресурс, а по оценке кликов и поведения выходило, что ресурс скорее плохой, и наоборот. Тогда мы брали и рассматривали: не ставили ли мы асессору неправильную задачу, или нет ли каких-либо приколов в нашей интерпретации кликов? Иными словами, мы используем их для подтверждения друг друга.
В: И автоматизированная часть, как она работает?
О: У нас давольно всеобъемлющая система, которая использует оба типа данных, для подтверждения. Она работает на постоянной основе. Это примерно как управляя дата-центром, у вас на машинах всегда запущено ПО, отслеживающие объем использованной памяти и другие параметры.
На уровне контроля качества [поиска] у нас нечто похожее. Постоянно в каждом из наших дата-центров большой набор запросов выполняется в фоновом режиме, и мы отслеживаем результаты, смотрим наши оценки для них и убеждаемся, что все наши метрики качества в пределах допустимого.
Эти запросы, что мы используем для текущей непрерывной оценки, из числа тестовых запросов, для которых мы получили оценки результатов; наши асессоры проставили им оценки. И мы непрерывно прогоняем их по десяткам локалей. Оба, и набор общих запросов, и набор навигационных запросов, типа "магазин велосипедов Сан-Франциско", чтобы быть ближе к реальности, типа: Здесь каждый штат США, и они имеют свою домашнюю страницу, и нам лучше иметь эту страницу в топе, иначе, если её там нет... у кого-то натурально начинает звонить пейджер.
В: Недавно Google обмолвился об ускорении инноваций. Вы делаете больше работы, чем ранее?
О: В течение последних пары лет мы внедряли по крайней мере по несколько сотен [инноваций]. Возможно теперь число выровнялось, после значительного роста в течении ряда лет. Теперь мы делаем больше в пользовательском интерфейсе. Мы пробуем провести еще больше экспериментов - как еще мы можем раздвинуть границы возможного?
Не хочется быть только 10 синими ссылками. Я считаю мы действительно пытаемся быть более активными во внедрении множества фич, которые появятся на странице результатов поиска. Даже если вы посмотрите на сегодняшнюю страницу результатов в сравнении какой она была пару лет назад, она действительно выглядит иначе.
В: почему она меняется быстрее? Что заставляет Google делать больше изменений?
О: Google непрерывно работает на совершенствование основного рейтинга. Здесь, я полагаю, мы двигаемся быстро и двигались так и ранее. В пользовательском интефейсе, по-моему, планка ожиданий пользователей от поисковой машины сейчас поднята выше. Вот именно поэтому и были добавлены новые фичи Google и других поисковиков.
Когда я набираю "кино" в Google, я ожидаю, что Google определит, где я нахожусь, и выдаст время сеансов в кинотеатрах, а не только список веб-страниц с упоминанием слова "кино". Когда я набираю запрос "пицца в Сан-Франциско", я ожидаю, что Google выдаст карту с указанием мест, предлагающих пиццу, и отзывами посетителей под ними.
Но вы можете очень легко сломать хорошее впечатление о поиске. Люди частенько прикалываются над 10 голубыми ссылками, но в 10 голубых ссылках есть нечто рациональное, - они привычные. Ваш глаз знает, что и где искать. Они оптимизированы для быстрого сканирования результатов и нахождения того, что нужно. Я не думаю, что мы на сегодняшний день готовы от них избавиться.
Потребуются ли фундаментальные изменения в интерфейсе, чтобы отвечать новым ожиданиям пользователей от поиска?
О: Я не думаю, что мы уже достигли этой точки. Когда я ощущаю, что универсальный поиск [который возвращает ссылки не только на страницы, но и на видео, карты и другие материалы] сломался, это значит не столько, что не получилось создать хорошую универсальную страницу, сколько случились кое-какие осечки. Вылезает что-то, что не должно. Что-то в наших алгоритмах неправильно срабатывает. Но ошибка-то не столько в парадигме.
В: Что долгое время удерживает здесь специалистов по качеству поиска?
О: Ребята, с которыми я работаю, будучи экспертами мирового уровня в том, чем они занимаются, просто влюблены в это. Поиск поистине огромная задача. Это не то, что написание программы. Написав которую, основная задача считается выполненной.
Поиск не таков. Тут просто бесконечное число очень трудных, сложных, но невероятно интересных проблем для решения. Мы просто даже не приблизились к моменту иссякания этого фонтана.