За стеной фильтров. Что Интернет скрывает от вас? - Паризер Эли (книги онлайн полностью .txt) 📗
С самого начала Пейдж и Брин понимали, что важнейшие сигналы будут поступать от самих пользователей поисковика. Скажем, если кто-то ищет «Ларри Пейдж» и кликает на вторую ссылку в результатах, это тоже «голос»: он подсказывает, что вторая ссылка более релевантна, чем первая. Они назвали это «клюс-сигналами» (click signal). «Очень интересными будут исследования, — писали Пейдж и Брин, — в основу которых лягут огромные объемы данных об использовании современных веб-систем… весьма трудно получить эту информацию, прежде всего потому, что она предположительно имеет коммерческую ценность» [69]. Вскоре в их руках оказалось одно из крупнейших в мире хранилищ таких данных.
По части информации Google был ненасытен. Брин и Пейдж намеревались сохранять все: каждую страницу, на которую когда-либо заходила поисковая машина, каждый клик каждого пользователя. Вскоре их серверы уже хранили копию большей части Интернета, обновляемую практически в режиме реального времени. Они были уверены, что, просеивая данные, найдут еще больше зацепок, еще больше сигналов, позволяющих уточнять результаты. Отдел качества поиска Google завоевал репутацию местного спецназа: минимум посетителей, абсолютная секретность — таковы были правила его работы [70].
«Идеальная поисковая машина, — любил говорить Пейдж, — будет в точности понимать, что вы имеете в виду, и выдавать в точности то, что вы хотите» [71]. Google должен был выдавать не тысячи ссылок в ответ на запрос, а одну, именно ту, которая нужна. Но идеальные ответы для разных пользователей — разные. Когда я ввожу в строку поиска «пантеры», вероятно, я имею в виду крупных диких кошек, а если это слово вводит футбольный фанат, то он, видимо, подразумевает футбольную команду из Южной Каролины. Чтобы добиться идеальной точности, нужно знать, чем конкретно интересуется каждый из нас. Нужно знать, что я ничего не понимаю в футболе; нужно знать, кто я такой.
Главной проблемой было получить достаточно данных и выяснить, что соответствует интересам каждого конкретного пользователя. Понять, чего хочет кто-то, — непростая задача, и, чтобы выполнить ее хорошо, нужно знать, как ведет себя человек в течение длительного времени.
Но как? В 2004 году компания выдвинула инновационную стратегию и начала предоставлять другие услуги — те, которые вынуждали пользователей регистрироваться и входить в Сеть. Одной из первых стала Gmail — чрезвычайно популярная электронная почта. Журналисты много писали о рекламе, выводимой в Gmail рядом с письмами, но маловероятно, что она была единственным мотивом запуска сервиса. Заставляя людей входить в Сеть под своим логином, Google заполучил в свое распоряжение колоссальные массивы данных: сотни миллионов писем, которые пользователи отправляют и получают каждый день. Компания теперь может сопоставлять сообщения и поведение каждого пользователя на сайте со ссылками, на которые он кликает в поисковой машине. Пакет онлайновых инструментов для работы с текстом и электронными таблицами Google Apps имел двойное назначение: с одной стороны, он подрывал позиции Microsoft, кровного врага Google, а с другой — стал еще одним крючком, заставляющим пользователей входить в Сеть и посылать всё новые клик-сигналы. Все эти данные позволили Google ускорить создание модели личности каждого пользователя — какими темами он интересуется, по каким ссылкам ходит.
К ноябрю 2008 года Google получил несколько патентов на алгоритмы персонализации — программный код, позволяющий выделить группы, к которым принадлежит индивид, и скорректировать поисковые результаты с учетом предпочтений. Категории Google оказались довольно узкими: для иллюстрации в патенте приводился пример «всех лиц, интересующихся коллекционированием зубов древних акул», и «всех лиц, не интересующихся коллекционированием зубов древних акул» [72]. При вводе слов «резцы большой белой акулы» люди из первой группы получили бы одни результаты, а из второй — другие.
Сегодня Google отслеживает любой сигнал от нас, который может заполучить. Важность этих данных трудно переоценить: если Google видит, что я вхожу в Сеть сперва из Нью-Йорка, потом из Сан-Франциско, потом снова из Нью-Йорка, то он понимает, что я регулярно летаю с одного побережья на другое, и может соответственно скорректировать выдаваемые результаты. Определив, какой браузер я использую, он может сделать некоторые выводы о моем возрасте и даже, возможно, о моих политических предпочтениях.
Время, проходящее от момента, когда вы вводите запрос, до момента, когда вы выбираете один из результатов, также проливает некоторый свет на вашу личность. И, конечно, сами поисковые запросы дают огромные объемы информации о вас.
Даже если вы не зашли в Сеть под своим логином, Google все равно выдает вам персонализированные результаты поиска. Ему доступна информация о районе — даже о квартале, — откуда вы зашли в Сеть, и это многое говорит о том, кто вы и чем интересуетесь. Слово «Sox» в поисковой строке, введенное на Уолл-стрит, вероятно, представляет собой сокращение от названия закона Сарбейнса — Оксли [73], тогда как, если запрос поступил из Стейтен-Айленда [74], речь, видимо, идет о названии бейсбольной команды.
«Люди все время предполагают, будто с поиском мы уже разобрались, — говорил Пейдж в 2009 году. — Это очень далеко от истины. Возможно, мы прошли лишь пять процентов пути. Мы хотим создать идеальную поисковую машину, которая сможет понимать все… некоторые называют это искусственным интеллектом» [75].
В 2006 году на мероприятии Google Press Day гендиректор Google Эрик Шмидт изложил 5-летний план компании. Однажды, по его словам, Google сможет отвечать на вопросы вроде «В какой колледж мне стоит пойти?». «Пройдут годы, прежде чем мы сможем давать хотя бы частичные ответы на эти вопросы. Но в конечном итоге… Google сможет отвечать и на более гипотетические вопросы» [76].
Facebook повсюду
Алгоритмы Google не имеют себе равных, однако главная их задача — уговорить пользователей раскрыть свои вкусы и интересы. В феврале 2004 года в университетском общежитии Гарварда Марк Цукерберг придумал более простой подход. План, воплощенный в его творении Facebook, был таков: вместо того чтобы просеивать клик-сигналы в попытке понять, что же интересует людей, нужно просто спросить их.
С первого курса колледжа Цукерберг интересовался тем, что называл «социальным графом», — формальным описанием контактов и системы взаимоотношений каждого человека. Закачайте в компьютер эти данные, и он сможет делать довольно-таки интересные и полезные вещи: рассказывать вам, как дела у ваших друзей, где они побывали и чем интересуются. Это касалось и новостей: в самом первом своем воплощении, как внутренний гарвардский сайт, Facebook автоматически проставлял на персональных страницах его членов ссылки на статьи газеты Crimson [77], где те упоминались.
Facebook был вовсе не первой социальной сетью: когда Цукерберг собирал в ночи свой сайт, небрежно сделанный музыкальный портал MySpace уже имел головокружительный успех. А до MySpace внимание технически подкованной аудитории на краткий миг смогла привлечь сеть Friendster. Но Цукерберг задумал совсем иной сайт — не службу знакомств для робких и застенчивых, какой был Friendster, и не приглашающую знакомых и не знакомых между собой людей пообщаться, как MySpace. Facebook стремился опираться на уже существующие в реальном мире социальные связи. В сравнении со своими предшественниками он выглядел весьма скромно: главный акцент был на информации, а не на кричащей графике или атмосфере. «Мы коммунальная служба», — говорил Цукерберг потом [78]. Facebook больше походил не на ночной клуб, а на телефонную компанию; это была нейтральная платформа для общения и сотрудничества.
69
Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.2.
70
Saul Hansell. Google Keeps Tweaking its Search Engine. New York Times, June 3, 2007, http://www.nytimes.com/2007/06/03/business/yourmoney/03google.html?_r=l.
71
David A. Vise and Mark Malseed. The Google Story. New York: BantamDell, 2005, 289.
72
Полный текст патента: http://patft.uspto.gov/netacgi/nph-Parser7Sectl=PT02&Sect2=HIT0FF&u=%2Fnetahtml%2FPT0%2Fsearch-adv.htm&r=l&p=l&f=G&l=50&d=PTXT&Sl=7,451,130.PN.&OS=pn/7,451,130&RS=PN/7,451,13,
73
Закон 2002 года, существенно ужесточающий требования к финансовой отчетности компаний. Прим. пер.
74
«Спальный» район Нью-Йорка, расположенный на одноименном острове. Прим. пер.
75
Lawrence Page. Google Zeitgeist Europe Conference, May 2006.
76
BBC News. Hyper-personal Search 'Possible,' June 20, 2007, http://news.bbc.co.uk/2/hi/technology/6221256.stm.
77
Ежедневная газета для студентов и сотрудников Гарвардского университета. Прим. пер.
78
David Kirkpatrick. Facebook Effect. New York Times, June 8, 2010, www.nytimes.com/2010/06/08/books/excerpt-facebook-effect.html?pagewanted=l.