С сегодняшнего дня служба Яндекс.Новости предлагает новую страницу новостного сюжета (подборки сообщений, посвященных одному событию). Объемное представление новостей достигается сочетанием основных фактов, иллюстраций и справочной информации.
При выборе фактов используются сообщения от различных источников, что позволяет показать различные точки зрения. При этом приоритет получают информативные, оперативные и эксклюзивные новости. Сюжет иллюстрируется фотографиями и картами (если упомянуты какие-то географические объекты). С имен основных действующих лиц сюжета можно сразу перейти на их пресс-портреты.
Новый сюжет стал продолжением развития алгоритмов кластеризации, автоматического аннотирования и извлечения фактов, применяемых в Яндекс.Новостях. Технология, лежащая в его основе, получила название "многодокументная аннотация". "Из всех сообщений сюжета автоматически выделяются наиболее значимые объекты — имена людей, названия организаций, географические объекты, даты и числа. Они, наряду с ключевыми словами сюжета и новостными запросами, определяют выбор текстов для аннотации, — говорит Лев Гершензон, ведущий разработчик компании "Яндекс". — Фактографический подход к построению аннотации, как нам кажется, делает ее более информативной".
Служба Яндекс.Новости сегодня сотрудничает на договорных основах с 1700 источниками и обрабатывает ежедневно 100 тысяч сообщений. Главная задача Яндекс.Новостей — автоматически составить полную информационную картину дня. "Прямо на странице сюжета читатель получает представление о том, что произошло, а для получения подробной информации может выбрать тот источник, который ему больше нравится, — говорит Татьяна Платонова, руководитель службы Яндекс.Новости. — А сайт нашего партнера — источника — получает заинтересованного пользователя".
Обработка и систематизация новостей происходят автоматически. Алгоритмы анализа и ранжирования данных — оригинальная разработка Яндекса, основанная на определении текстуальной близости и кластеризации информационных потоков. Технология извлечения данных (fact extraction) в Яндекс.Новостях впервые была применена для автоматического выделения главных действующих лиц новостных сюжетов. Год назад был открыт доступ к пресс-портретам — справочной информации о людях, автоматически извлеченной из новостей СМИ. Автоматическое выделение и отождествление адресов и цитат построено на той же технологии.