8 (351) 220-33-73

Как разработать генератор названий для новостных подборок Интерфакса: опыт победителей хакатона Всероссийского конкурса «Цифровой прорыв»


20-22 августа сотрудники «Napoleon IT», резидента «IT-Park74», регионального оператора фонда «Сколково», под кодовым названием «[CLS][UNK][PAD][PAD]» приняли участие во Всероссийском конкурсе «Цифровой прорыв». В хакатоне, посвященному креативным индустриям, коммуникациям и контенту, команда успешно решила кейс от Интерфакса и заняла первое место.
«[CLS][UNK][PAD][PAD]» – команда международного разработчика «Napoleon IT» выбрала для решения кейс от крупнейшей в России негосударственной информационной группы Интерфакса. Необходимо было разработать программное решение, которое будет в автоматическом режиме генерировать названия для тематических подборок (сюжетов).
На данный момент сбор новостей в сюжеты у Интерфакса происходит автоматически по новостям, которые посвящены одной теме, событию или объекту. Например, «Олимпиада-2020», «Пандемия коронавируса», «ПМЭФ – 2021», «Выборы в США – 2020». Этим подборкам новостей нужны подходящие названия, которые необходимо генерировать автоматически.
Главная проблема заключалась в том, что текущая система анализирует большой поток новостей, автоматически рекомендует теги и собирает группы новостей, но при этом нет модуля генерации релевантных заголовков. Если для ее решения подключать группу из людей, которые будут все обрабатывать вручную, то необходимо было бы большее число человеческих ресурсов, утомительный и ручной труд, а скорость работы неизбежно снизилась. Чтобы понять все проблемные места команда «[CLS][UNK][PAD][PAD]» провела аналитику сайта Интерфакса и других СМИ, а также custdev среди более 100 пользователей для выявление основных болей в потреблении контента, восприятии заголовков и группировки новостей. Результаты опросов и мониторинга показали, что пользователям важна группировка по событиям. Зачастую они смотрят новости в рабочих целях и читают их полностью. Как возможный конкурент с похожим функционалом был проанализирован Яндекс Дзен. На подобных платформах с рекомендательными видами контента после анализа каждой публикации присваиваются определенные интересы и формируется собственная подборка контента.
Общим решением проблемы стала разработка сервиса генерации заголовков, созданного на основе нейронной сети Bert, куда принимаются группы новостей, а далее к ним формируются автоматические заголовок. Для начала команда обучала эту сеть на десятках тысячей новостей пониманию лексики и контекста новостей. Когда сеть научилась читать новости, ее дообучили на написание заголовков на данных, предоставленных Интерфаксом и содержащих 200 групп новостей с названиями. Для ускорения обучения и генерации заголовков использовались только первые два предложения новостей, т.к. в них содержится смысл новости, а дальше идут детали не нужные для создания заголовка. При этом основной риск при генерации заголовков при помощи нейросетевой модели – генерация фейковых заголовков.
Также команда дала рекомендации по дальнейшему развитию системы, нивелированию рисков создания фейковых заголовков и просчитала экономическую эффективность внедрения данных технологий, которые помогли бы сэкономить Интерфаксу на найме 10 дополнительных сотрудников для группировки подобных новостей вручную.
Работа [CLS][UNK][PAD][PAD] получила высокую оценку от Владимира Герасимова, первого заместителя генерального директора, Группа «Интерфакс»: «Вы уже попали в те самые новости, к которым на хакатоне стояла задача автоматически создавать заголовки сюжетов. Задачи такого рода постоянно расширяются: у «Интерфакса уже более 20% новостей пишут алгоритмы. К решению ещё одной задачи — по автоматической генерации заголовков для новостных сюжетов — мы сегодня приблизились вместе с вами. Вы молодцы!»
СЕО компании «Napoleon IT» Подкорытов также оценил работу команды: «Этот сервис может быть использован Интерфаксом для верификации названия статьи и ее содержания. Залог успеха каждого СМИ – это оперативное предоставление актуальной информации в удобном для читателя виде. В «Интерфаксе» все новости и сюжеты собраны в тематические подборки, что позволяет видеть общую новостную картину дня и ориентироваться в информационной повестке. Это экономит время многих читателей».
«Я думаю, замена рутинного человеческого труда роботизированным – это позитивное явление, в том числе в журналистике. У людей освобождается больше времени на творческие задачи. Думаю, искусственный интеллект вполне может заменить человека в придумывании заголовков для новостей. Они строятся по очень простому правилу, которому учат на первом курсе журфака. Надо в одном предложении рассказать, что произошло, кто действующий персонаж, где случилось событие, иногда можно добавить подробность, которая делает новость уникальной. Это достаточно простой набор фактов, которые можно найти в тексте. Мне кажется, что совсем заменить журналистов роботы не смогут, это все-таки слишком «человеческая» профессия в вопросах выбора тем и доверительного общения с героями. Но, возможно, так думать – слишком самонадеянно.» – редактор отдела экономики ИА «Первое областное».