Как распознать фейк

«Люди склонны верить не тому, что истинно, а тому, о чем больше говорят»

Сейчас в социальных медиа появляется много фейков, связанных с коронавирусом. О том, откуда берутся публикации, вводящие людей в заблуждение, чем они опасны, как с ними бороться и как в этом могут помочь IT-решения, рассказывает руководитель группы текстовой аналитики «SAS Россия» Алексей Пятов.

Откуда берутся фейки

Всплески фейков, как правило, начинаются на фоне тревожной темы, которая создает благодатную почву для их распространения. Это и понятно: негативные образы наиболее привлекательны. Нашему уму проще цепляться за недостатки, чем сосредотачиваться на достоинствах.

Причины появления фейков разные: кто-то, вероятно, делает это ради шутки, кто-то запускает своеобразный информационный вирус, кто-то преследует личные или политические интересы. Но чаще фейки появляются не из злого умысла, а в силу спешки, невнимательности или по глупости — из-за механизма сломанного телефона, когда одни неверно цитируют других, каждый раз добавляя свои детали и интерпретации к оригиналу. Через серию таких цитирований первоначальная информация искажается до неузнаваемости.

Приведу пример: председатель Счетной палаты РФ Алексей Кудрин недавно в интервью РБК сказал, что для борьбы с последствиями кризиса правительство может использовать 30 трлн рублей с депозитов физлиц через механизм заимствования. Это означает, что банки вместо того, чтобы переиспользовать полученные от вкладчиков средства для выдачи кредитов, купят на них облигации федерального займа, то есть дадут деньги в заем правительству под гарантии. Всем, по идее, должно стать только лучше: деньги пойдут на благо экономики, банки получат гарантии возврата вложенных ими средств (на фоне возросших рисков невыплаты кредитов), а для тех, кто владеет депозитом, ничего не изменится.

Но некоторые журналисты, желая пошуметь и привлечь внимание, вместо того чтобы помочь читателям разобраться, первым предложением ввернули фразу «Кудрин предложил использовать деньги со счетов физических лиц», оставив про механизм заимствования где-то в конце и мелким шрифтом. Ну а в соцсетях и чатах это превратилось в «Кудрин предложил отобрать депозиты у людей», и, конечно, тут же начались обсуждения и возмущения.

Впрочем, бывают и другие фейки. Например, кто-то хочет на волне паники продать какой-то продукт или препарат. Начинаются публикации про невероятную пользу этого препарата на фоне недоказанного эффекта. Люди в растерянности, хотят во что-то верить и на что-то надеяться, поэтому они хватаются за любую возможность добавить себе уверенности в сегодняшнем и завтрашнем дне и скупают непроверенный препарат пачками. Иногда кто-то от этого, к сожалению, умирает.

Чем опасна ложь

Фейки смущают умы людей, ввергают их в панику и побуждают принимать неверные, а иногда и опасные решения. И это касается не только ложных новостей в СМИ, это относится и к другим видам злонамеренного контента, гуляющего по соцсетям: слухам, дезинформации и пропаганде. Ущерб от фейков, по моему мнению, огромен — иногда он может выражаться в очень серьезных суммах. Например, в 2016 году котировки акций французской компании Vinci упали на 20% (с потерей порядка €7 млрд капитализации) из-за фальшивой новости в финансовых СМИ об увольнении финансового директора фирмы, причем фейк был продуманным и сознательно организованным.

Люди склонны верить не тому, что истинно, а тому, о чем больше говорят, причем скорее плохому, чем хорошему. И современная информационная повестка к этому располагает.

У каждого из нас, наверное, есть пара чатов в мессенджерах, где люди делятся новостями, мнениями и ссылками. У меня в одном таком чате постоянно появляются какие-то статьи про то, что коронавирус придумали власти предержащие. Изолироваться, мол, смысла нет, маски носить и руки мыть не надо, будто бы всех нас хотят таким образом приучить к покорности, чипировать и вообще загнать в лагеря.

Но даже если опасность коронавируса преувеличена и это лишь серьезное ОРВИ вроде гриппа, а не чума XXI века, все меры по борьбе с ним разумны — они снижают заболеваемость и негативные исходы не только от коронавируса, но и от других инфекций, которые с приходом коронавируса никуда не исчезли. Если люди будут прислушиваться к подобным безосновательным и вредным призывам, то это обесценит все усилия властей по нормализации ситуации.

Правда — лучшее средство

Игнорировать фейки нельзя, и лучший способ противодействия — правда. Нужно не бояться публиковать честную статистику и освещать на всех доступных площадках честную информацию, не утаивая и не преувеличивая свои успехи. Честность — это очень важно. Люди видят, что происходит вокруг: если, допустим, говорить про то, что мы добились невероятных успехов и на каждом углу продают маски по 10 рублей, а ВВП вырос на 10%, то народ просто перестанет верить государству и начнет верить фейкам. И вот так, своими фейками против других фейков, лучше не бороться. А если постоянно и честно делиться информацией, составлять инструкции на понятном языке, объяснять, как и что работает, тогда и пространства для домыслов останется гораздо меньше.

Без законодательных мер бороться с фейками достаточно трудно, так как люди, не ощущающие ответственности за свои поступки, способны на худшее. Но при этом нужно быть очень аккуратными с ограничением свободы за публикацию информации, как и с любым ограничением вообще. Очень легко перейти грань и начать бомбить неугодных вместо борьбы со злом.

На мой взгляд, в некоторых случаях не стоит сразу поднимать вопрос об уголовной ответственности (у нас ведь предусмотрена и административная за те же нарушения), а расследования необходимо проводить тщательно, собирая нормальную доказательную базу, делать все по букве и духу закона, а не по первому впечатлению.

Даже президент РФ в июне 2018 года на прямой линии высказывался против происходящего местами «маразма и абсурда» (речь шла о так называемых репостах экстремистских материалов), а потом на этот счет выразил мнение и пленум Верховного суда, объяснив в своем постановлении, что надо как минимум доказать умысел и определить мотивацию, а также исследовать сведения о деятельности человека до и после размещения информации.

Как распознать дезинформацию

Некоторые фейки распознать с первого взгляда достаточно сложно — как в приведенном выше примере с компанией Vinci. Но все же часто у дезинформирующих публикаций есть ряд общих черт, которые могут и должны насторожить вдумчивого читателя. Например, если использован кликбейтный заголовок, а текст статьи с ним совершенно не соотносится или если в нем есть определенные ключевые слова или фразы (скажем, «Отправьте эту новость своим родным и друзьям») и сама шокирующая новость опубликована на ресурсе, который не вызывает доверия (или автором, который его не вызывает), то это, возможно, фейк.

Лучше всего о том, как выявить ложную информацию, написано в блоге у Максима Ильяхова в заметках по тегу «пропаганда». Хотя Максим больше пишет о том, как не попасться на пропагандистские приемы, у него много метких наблюдений, которые пригодятся и для распознания фейков (которые часто используются именно в пропагандистских целях). В числе характерных черт — необоснованные обобщения; отсутствие ссылок и проверяемых источников; приемы «телепатии», когда кому-то приписываются априори непроверяемые мнения и мысли, и т. д.

Добавлю, что лично для меня главный признак фейка — непроверяемость источника, когда нельзя проследить, откуда это пошло, кто это сказал и где первичное исследование, публикация, интервью и т. д. Если же источник есть или он хотя бы гуглится по ключевым словам, то можно самому докопаться до правильной интерпретации и фактов.

Аналитика против обмана

Аналитические инструменты для выявления фейков в последнее время разрабатываются достаточно широко. Есть разные модели с разными архитектурами: Fakebox, FakeDetector, TriFN и другие. Существуют организации, в том числе международные, которые уже давно занимаются ручным поиском и разоблачением фейков: Международная сеть проверки фактов (International Fact-Checking Network), сайт Snopes и др.

Задачу по распознанию фейков решают классификаторы, обученные с помощью алгоритмов машинного или глубокого обучения. В общем случае они получают на вход текст статьи со всеми метаданными (заголовок, автор, рубрика, ссылки на источники, дата публикации) и выводят оценку, насколько данная статья похожа на фейк или реальную новость.

В разработке подобных моделей нет ничего необычного: необходимо собрать данные для обучения (с разметкой их истинности или ложности), определиться с набором атрибутов, выбрать алгоритм обучения, настроить параметры. Как правило, фейковые новости распространяются по Сети иначе, чем правдивые, и этот факт можно использовать для обучения модели — добавить в перечень атрибутов сведения о последующей «жизни» новости: репосты, лайки, данные пользователей, которые продвигают новость, и т. д.

Поскольку данные представляют собой текст на естественном языке, для превращения его в «фичи» необходимо использовать алгоритмы обработки естественного языка (natural language processing, NLP). Например, можно разбивать текст на n-граммы (последовательности слов или символов длины n) или представлять его как «мешок слов» и искать не последовательности, а просто набор определенных терминов, которые вместе чаще встречаются в фейках, чем в реальных новостях. Интересный подход извлечения признаков основывается на идее связности текста в теории риторических структур: в качестве признаков используются метки фрагментов текста типа «обоснование», «уступка», «детализация», «контраст».

Есть и более сложные алгоритмы обработки естественного языка, когда смысл текста кодируется точкой в многомерном пространстве — превращается в вектор с 300–500 параметрами. С помощью такого подхода можно сравнивать, например, насколько текст новости соотносится с заголовком или насколько одна новость похожа на другую.

Можно применять гибридные модели, когда автоматическую классификацию дополняют правилами, формирующими коэффициент для окончательной оценки на основе извлеченных из текста сущностей и фактов, соответствующих уже известным и задокументированным признакам фейков. Также разумно дополнять автоматическую классификацию выборочной ручной валидацией.

Более «прозрачный» подход основан на фактчекинге. При автоматическом фактчекинге применяется сравнение с доверенными источниками (скажем, с «Википедией», понимая при этом, что она тоже не лишена недостатков), при краудсорсинговом фактчекинге валидацию на истинность осуществляет большое количество людей.

Автоматические инструменты могут быть весьма результативными. Например, с Fakebox проводили классификацию фейков на валидационных выборках с точностью выше 95% (подозреваю, что в реальной практике цифры будут не такие красивые, но даже это уже интересный результат).

Есть и более сложные случаи, и более сложные системы для их классификации. Они решают, насколько можно доверять отдельно тексту статьи, отдельно заголовку и отдельно автору. Точность работы таких систем существенно ниже: для текстов не превышает 65%, для заголовков — 85%, для авторов — 61%. Это означает, что часть фейковых новостей не будет распознана вообще, а часть правдивых новостей будет помечена как фейки.

Нужны ли блокировки?

Блокировать фейковые новости целесообразно, если они несут вред — например, новости про то, что кокаин может вылечить коронавирус или что для профилактики коронавируса достаточно регулярно пить воду, а руки мыть необязательно. Могут быть, конечно, и менее анекдотичные, но не менее опасные заблуждения. Если говорить об их выявлении на этапе публикации, то это, на мой взгляд, зависит от редакторской политики новостных агентств: если такие новости сознательно публикуются, то, скорее всего, редакторы об этом знают. Если же агентство порядочное и редакторы не хотят публиковать фейки, то можно встроить модель в свои процессы и своевременно выявлять дезинформацию.

Все, что нужно для работы модели, — давать на вход тексты. Как только будет готов текст статьи, его можно «скорить». Если это делать сразу после публикации, тогда будут доступны дополнительные метаданные: рубрика, автор, источники, дата публикации, на каком ресурсе опубликовано, перекрестные ссылки и другое. Чем больше таких дополнительных данных, тем выше вероятность получить качественный результат.

Чтобы повысить эффективность борьбы — больше блокировать фейки и меньше удалять настоящий контент, — нужно, прежде всего, хорошо поработать над входными данными и затем обеспечить их корректный учет в моделях. Как вариант, можно использовать несколько моделей — простых и сложных, с разными архитектурами — и блокировать те новости, по которым все модели с высокой вероятностью уверены, что это фейк.

То есть, чтобы улучшать модель, над ней нужно постоянно работать. Искусственный интеллект не волшебный ящик, который сам разберется, где правда. Это мощный инструмент, который требует бережного обращения и внимательной настройки.

Если же понимать борьбу с фейками не только как работу конкретного алгоритма или конкретные действия по отношению к конкретному кусочку текста, то серьезную роль в победе над фейками, как я уже сказал, может сыграть просвещение — распространение правдивой информации о коронавирусе, о ситуации в стране, о мерах, принимаемых компаниями и правительствами, а также почему именно такие решения были приняты, а не другие.

Я уверен, что открытость корпораций и представителей власти, масштабная работа с населением на равных и ответы на волнующие людей вопросы могут помочь в борьбе с недостоверной информацией больше, чем совершенствование алгоритмов или любые карательные меры.

Фото: Shutterstock; из личного архива эксперта

#коронавирус

#общество

#соцсети

29.05.2020

инновации