Вскоре нас ждет digital humanity, - Всеволод Демкин

Любая профессия будет связана с компьютером, а человечество окажется в состоянии digital humanity - все станет цифровым, считает специалист по Natural Language Processing.

Специалист по Natural Language Processing Всеволод Демкин «учит» компьютеры писать, как человек. Несколько лет Всеволод работал как techlead в компании «Grammarly». В студии ведущие Мириам Драгина и Елена Скирда.

Как компьютеры исправляют написанный текст

Что такое Natural Language Processing?

Всеволод Демкин: Это довольно простая штука, которая занимается тем, что берет природные тексты, созданные человеком, и превращает их в данные понятны для компьютера, или, наоборот, по данным, которые понятны компьютеру, генерирует текст, который будет понятен для человека.

Мириам Драгина Расскажите, пожалуйста, о вашей деятельности.

Всеволод Демкин: Сейчас у нас есть проект, который может быть скоро анонсирован. Он состоит в борьбе с «фейковыми новостями». Это одно из тех вещей, которое относится к задачам Natural Language Processing. На самом деле любая интеллектуальная обработка текста в той или иной форме относится к сфере Natural Language Processing, то есть разные задачи: обработка электронной почты, дополнительные возможности для сервисов электронной commerce, аукционов и так далее. Любая программа, если она взаимодействует с человеком, может от этого получить какую-то пользу.

Мириам Драгина: Имеет ли отношение Natural Language Processing к нейролингвистике?

Всеволод Демкин: Хотя сокращение одно и тоже - NLP , и Natural Language Processing базируется на лингвистике. Несмотря на то, что есть какой сечение, и идеи из этой области могут вдохновлять исследователей из другой, прямого отношения нет.

Почему именно сейчас набирает обороты лингвистика в компьютерных науках? Почему это не произошло раньше, ведь мы постоянно пользуемся этим инструментом?

Всеволод Демкин: Действительно, уже более 50 лет нейролингивистика развивается. По моему мнению, причина здесь та же, как и в случае общего бума по AI , искусственного интеллекта, - назрели условия. Появились мощные компьютеры, сделано достаточно исследований, появились большие корпуса данных, полученных в первую очередь благодаря развитию Интернета, которые позволяют сегодня делать более продвинутые, интеллектуальные применения всего этого.

Значит ли это, что наконец профессии лингвист, филолог будут такими же популярными и перспективными как, например, программист?

Всеволод Демкин: Лингвисты самом деле и так пользуются большим спросом, однако в настоящее время остается маленькая предложение таких лингвистов, которые способны делать это. Про филологов здесь немного другое. Филологи и лингвисты даже по-разному мыслят: у филологов более гуманитарное мышление, а лингвисты - это прикладные люди, которые пытаются решать какие-то задачи.

Мириам Драгина Почему, собственно, Natural, чтобы приблизить процесс к языку, на котором мы говорим?

Всеволод Демкин: Здесь имеется в виду Natural, ибо в отличие от искусственного языка, то есть от Аrtificial, Formal Language Processing.

Мириам Драгина: О лингвистики?

Всеволод Демкин: Лингвистика, с моей точки зрения, более прикладная наука. Artificial intelligence включает в себя как часть работу с языком, потому что язык - это основной инструмент коммуникации. Задачи же Natural Language Processing (NLP) более приближены к прикладным вещам. Это написание, перевод, улучшение текста, определение темы текста, действующих лиц или чего-то подобного.

Мириам Драгина: «Grammarly», компания, в которые вы долгое время работали. Кстати, это, собственно, украинский стартап, работающий на международном уровне и недавно получил 110 млн долларов инвестиций. Правда ли, что «Grammarly» рекомендована во многих вузах США ?

Всеволод Демкин: Да, они просто их покупают и дают своим студентам в пользование. На самом деле в Соединенных Штатах очень большая проблема с грамотностью. В школах плохо изучают язык, а грамматику тем более. В университетах еще много тех людей, которые приехали на учебу из-за рубежа, которые, очевидно, имеют проблему с грамотностью. Поэтому для них это более актуальная проблема, чем для нас сейчас.

Мириам Драгина В современном мире, кажется, неважно писать грамотно. Общаясь в социальных сетях, мало кто учитывает правильное написание. Зачем это нужно в таком случае?

Всеволод Демкин: Я был такого же мнения, пока не пришел в «Grammarly» и не услышал отзывы пользователей. Если отвечать на этот вопрос так, как представляет «Grammarly», то многим людям это позволяет получить лучшие оценки, выглядеть более профессионально, кроме того растет вероятность устроиться на работу.

Как сочетаются технические знания и знания лингвистики? Я, например, всегда считала себя гуманитарием, но мне сказали, что не существует разделения на гуманитариев и технарей. Получается: каждый может научиться всему, так ли это?

Всеволод Демкин: На самом деле, так. На Западе даже есть тренд, который называется digital humanities. Это такая область исследования и обучение, основанное на компьютеризации всех сфер жизни, в том числе и гуманитарных, включая вопросы социологическими, психологическими, историей, журналистикой и так далее.

Мириам Драгина Если говорить о Natural Language Processing, какие страны больше всего озабочены этой темой, и где наибольшее количество классных специалистов?

Всеволод Демкин: В принципе все те страны, которые активно развивают компьютерные науки, то есть это США , Япония, Китай, Израиль, Германия, Канада.

Мириам Драгина: А как насчет Украины?

Всеволод Демкин: Украина не какой-то школы или разработок по Natural Language Processing. Хотя есть проекты с тем же компьютерным зрением, успешные стартапы как, например, YouDo и Luxury. А вот с лингвистикой у нас, к сожалению, пока все плохо.

Мириам Драгина Почему так происходит в Украине, чего не хватает?

Всеволод Демкин: Не было политики и понимание того, что это нужно.

Мириам Драгина: есть на базе гуманитарных факультетов должны быть еще и технические, так?

Всеволод Демкин : Скорее это должно быть сечение компьютерных наук и гуманитарных. Digital humanities раз то движение в направлении пересечения между двумя этими ранее независимыми ветвями.

Мириам Драгина: А когда именно процесс digital humanity придет к нам?

Всеволод Демкин: Знаю, что эти процессы постепенно уже происходят. Недавно была презентация, на которой в КНУ представляли программу прикладной лингвистики, кроме того, это делается во Львове. Просто что у нас очень инертная отрасль высшего образования, поэтому к ним эти тренды доходят медленно.

Мириам Драгина: Есть такие исследования относительно того, где мы окажемся в 10-20 лет в плане языка, написание текста? И будем мы вообще грамотно писать?

Всеволод Демкин: Есть такое исследование, уровень грамотности падает с развитием компьютеризации. Возможно, так и будет, что никто действительно не будет знать. С другой стороны «Grammarly» ставит своей целью улучшать грамотность. Программа не просто исправляет ошибки, она еще и рассказывает, почему это ошибка, что это за ошибка и как ее избежать в будущем, то есть пытается просвещать человека. Где мы будем, зависит в первую очередь от нас.

Мириам Драгина Вы работаете только с английским языком?

Всеволод Демкин: С украинским тоже работаю. У нас есть волонтерский проект, который мы делаем вместе с Дмитрием Чаплинским, другими активистами. Мы собираем данные для украинского языка, на базе которых можно будет создавать инструменты обработки украинском. Но обычно я работаю с английским, потому что это основной язык, которая занимает 90 % рынка.

Как устроена ваша работа, сотрудничество с лингвистами?

Всеволод Демкин: К лингвистов обычно обращается предприятие, которое собирается делать что-то в этой сфере. Помощь же лингвистов имеет несколько направлений. Первый - это просто консультация по поводу того, что следует, а чего не стоит делать. Второе направление - работа с данными. Это, наверное, самая трудоемкая работа. Заключается она в том, чтобы компьютер можно было использовать для обучения, каких алгоритмов, для их оценки, вообще для понимания того, правильно ли мы это делаем, или нет. Потому что мы можем иметь свое представление о тексте, а лингвисты кардинально другое. Интересно, что, когда мы работали с английскими лингвистами, они постоянно спорили, ведь у них даже в Восточном и Западном побережье могут быть разные правила. И наконец третьих, что лингвисты могут делать, это производить какие-то идеи, как решать задачи.

Мириам Драгина: Существует некая экспертная группа, которая говорит: разрабатываем продукт для «Grammarly». Кто же все-таки в ней принимает решение: вы или они?

Всеволод Демкин: Зависит от ситуации. Лучше всего, когда решение принимает рынок, то есть пользователи. Существует определенная выборка людей, на которых тестируют программу. Одной группе предлагают старую версию программы, а другой - новую. И версия, которая больше понравилась, и будет в конечном итоге поступать на рынок.

Мириам Драгина: Знаю, что, когда компания стала открытой для всех пользователей, то появилось гораздо больше информации.

Всеволод Демкин: Да, потому что стало гораздо больше пользователей, причем разных групп. Раньше, например, пользовались только те, которые могли заплатить за услугу, сейчас же пользуются и те, которые не могут за нее заплатить. И эти группы требуют различной информации.

Мириам Драгина: А как отличаются потребности людей?

Всеволод Демкин: Те, кто могли заплатить, писали важные документы, в частности резюме, диссертации, это, например, такие люди, как юристы, медики. Соответственно в людей, которые пишут в чате, может не возникать необходимости постоянно исправлять свои ошибки, хотя в принципе им это полезно, но они за это не заплатят свои деньги. В общем, когда работаешь в «Grammarly», очень много замечаешь интересных аспектов. Например, одной из групп пользователей были писатели, которые сейчас благодаря этому не нуждаются в корректорах.

Мириам Драгина: Таким образом вы создаете программу, которая лишает работы корректоров? Эта профессия в будущем перестанет существовать?

Всеволод Демкин : Надеюсь, что да.

Мириам Драгина: что делать корректорам?

Всеволод Демкин: Учиться выполнять более сложную работу, например, становиться лингвистами. Думаю, что ответ уже дали давно, когда начался научно-технический прогресс. То есть нужно двигаться в направлении улучшения своих знаний, навыков. Возможностей самом деле много.

Елена Скирда: Какие вызовы считаете важнейшими в вашей отрасли?

Всеволод Демкин: Здесь два аспекта. С одной стороны, есть технические вызовы, которые заключаются в том, что, как решим эту проблему, то сделаем еще один шаг вперед. С другой стороны, есть этические вызовы, о которых часто говорят люди, и один из них мы сейчас вспомнили. Еще один вызов касается автоматизированной цензуры.

Елена Скирда: Какие задачи стали сейчас привычными, еще 5 лет назад казались невозможными?

Всеволод Демкин: В последние годы появляется много возможностей генерации текста. Ранее они были, но ограничены шаблонами, методами. Сейчас компьютер свободно может спродуцировать какой-то текст. Единственное, что пока нельзя конца контролировать, какой это будет текст. Однако и это уже определенный прорыв.

Вы работали в R&D -отдел «Grammarly». Как вообще строить эти R&D -отдел в ИТ-компании Украины и как делать их глобальными?

Всеволод Демкин: Для того чтобы сделать глобальный проект, необязательно иметь глобальный R & D -отдел. Однако, если вы собираетесь делать стартап такого плана, то это самая конкурентное преимущество.

Вообще R & D -отдел довольно расплывчатое понятие. R & D - это буквально research and development. Development - это собственно программирование, разработка программ и технологий. А research - это исследовательскую, выработки каких-то новых результатов, которых до этого не было.

Компаниям, которые пытаются работать в области искусственного интеллекта, нужен этот research хотя бы частично. В Украине для этого и база, и люди, которые уже включены в мировую научно-прикладную тусовку.

Что нужно, чтобы создать такой отдел? Это на самом деле очень сложная задача. Во-первых, хотя у нас и есть люди, но их меньше, и спрос на них очень большой, и предложения в них весьма хороши, то есть они могут поехать работать в «Google» куда-то в Швейцарию или Америку, где им будут платить огромные средства. Плюс наш собственный рынок быстро развивается, и спрос также велик. Второй же момент заключается в том, что для этого проекта нужен другой подход к менеджменту, то есть это не то же самое, что управлять программистами или людьми других профессий. Ведь исследователи, можно сказать, довольно творческие люди, у них уровень творчества еще больше, чем у программистов.

Елена Скирда: То есть это ученые, которые работают в бизнесе.

Всеволод Демкин: Можно и так сказать.

Елена Скирда: Чего не хватает украинским компаниям, чтобы выйти на глобальный рынок?

Всеволод Демкин: На ​​самом деле украинские компании могут это делать и уже много раз это доказали. То есть нельзя сказать, что им чего-то не хватает. Конкретной компании может не хватать какого-то понимания, амбиций, а также, возможно, желание рискнуть, выйти из зоны комфорта. Те же, кто это делает, достигают успеха.