007. Как Толока помогает Алисе быть современной и остроумной — Александра Изосина


Голосовые ассистенты стремительно набирают популярность. С Алисой ежедневно разговаривает несколько миллионов людей — дома, в машине, на работе. Они решают самые разные задачи: узнают последние новости, ищут что-то в интернете, строят маршруты, просто болтают или играют с Алисой. Чтобы Алиса могла каждого понять, каждому помочь и с каждым поговорить приятным женским голосом, необходимо большое количество разнородных данных — как текстовых, так и голосовых. И дело не только в объеме. Мир меняется, и сегодня люди хотят говорить о том, чего вчера ещё не существовало, поэтому эти данные должны постоянно обновляться. К тому же меняется и развивается сама Алиса, а значит, постоянно возникает потребность в новых типах пользовательских оценок и метрик.

В докладе я расскажу, как в этих условиях Толока помогает нам измерять разные аспекты качества Алисы, а также обучать и развивать её. меня зовут саша я работаю на лети комбо леся сегодня я хочу вам рассказать про то как толока помогает собирать данные нам чтобы делать нашего голосового помощника лесу лучше обучать ее всяким новым штукам и учит ее не слишком хамить пользователям с чего же начинается алиса алиса начинается с запроса пользователя и средстве и каждый день разговаривать несколько миллионов людей и все они спрашивают ее о чем-то своем обычные разных вещах кто-то ищет что-то прагматичная где купить суши в ухте кто-то может искать что-то гораздо более оригинальное а где сейчас находится мухи кто-то хочет просто поболтать с алисой он тебя есть папа и мама и всех этих людей нам нужно понять нам нужно распознать их речь собственно для этого мы разрабатываем систему распознавания речи в яндексе постоянно работаем над ним улучшаем ее но для этого нам нужны данные и как же нам здесь помогает толока собственно мы показываем the locker а аудиозапись и просим их записать что сказал пользователю что же мы получаем пока очень большая система поэтому исполнители работает в не очень быстрая и примерно за час работы то локеров мы можем получить где-то пять часов размеченных аудиозаписей кроме этого толока работает 24 на 7 поэтому мы можем регулярно обновлять наши данные что очень важно потому что пользователь может захотеть поговорить сариссы о чем-то чего вчера еще вообще не существовало кажется что такие объемы мы должны размениваться на качество но на самом деле нет если попросить одного человека записать что было сказано на аудио его ошибка составит где-то в среднем 5-6 процентов неправильно распознанных слов при этом когда мы показываем задание нескольким исполнителям ему выбрать из них лучший вариант ошибку в итоговых данных удается сократить до всего лишь одного двух процентов но понять что нам сказал пользователи это только пол дела как же можно хорошо ответить на такой каверзный вопрос давайте попробуем не очень получилось что-то алиса не поняла из чего от неё хотел пользоваться можем попробовать еще раз как бы уже понимаем о чем идет речь но не хочется что болит и так разговаривала с пользователем там так хамила надо попробовать еще разок а вот это уже похоже на то как мы видим алису вежливую который хочет поддержать разговор с пользователем этого получаем что у ответов алисы есть очень много разных аспектов качества мы хотим чтобы она отвечала уместно чтобы она не хамила не обращалась к пользователю над и конечно говорил о себе в женском роде потому что нас все-таки девочка все эти метрики мы представляем виде задание на толоки мы можем спросить у то локеров правда ли что кто-то виной ответа весы обладает указанными свойствами что очень удобно мы автоматизировали с помощью api это лаки замеры этих аспектов качества и сейчас когда у нас есть новая модель мы можем просто одной кнопкой прогнать ее на специально отобранный тестовом сети и сравнить и качество с предыдущей моделью например или вообще святится нашими изменениями но не всегда все так просто не всегда можно формализовать аспекты качества например у нас есть синтез речи вот как а еще там содержалось то чего не предвидели не докладчик не его соавторы вроде бы понятно все что говорит но что-то в этом не то синтез речи должен обладать разными свойствами которые трудно формализовать он должен быть естественным у него должна быть правильной интонации не должно быть каких-то технических дефектов это все довольно субъективны и метрики поэтому сложно представить их в виде такой вот оценочной оценочный модель им можно попробовать упростить это задание вот первый вариант записи а еще там содержалось то чего не предвидели не докладчик не его соавторы а вот 2 а еще там содержалось то чего не предвидели не докладчик не его соавторы так позволяя исполнителю выбрать между двумя вариантами мы можем объективно оценивать качество нашей системы не используя какой-то высококвалифицированный труд сложную систему оценки этого толоко позволяет нам получать данные разные природы высокого качества в больших объемах и быстро не только из за того что в толоке много исполнителей но и потому что мы можем автоматизировать все операции с ней и не тратить свое собственное время на сбор данных спасибо у меня два вопроса один вот прямо к предыдущему слайду про то как сделать чтобы in the интонационно алиса говорила лучше почему не за не просить то локеров проговорить фразу и смотреть по модуляции соответственно чтобы дальше находить логику и там где интонационно алиса не права соответствия помогать и говорить лучше досмотрите нам нужно им метрика за который мы будем по которым мы будем следить за нашим качеством мы пробовали используются разные подходы но в конце концов нам интересно как это воспринимает пользователь вот и самый простой способ узнать это я бы спросить у наших пользователей спросить у то локеров и здесь мы можем мы можем предоставить им выбор что чтобы облегчить задачу и нет классифицировать запись по разным аспектам но при этом как мы дальше будем использовать например и которые не отметили плохими ну мы можем использовать с модуляцию мы можем использовать разные подходы и предложил не чтобы они выбрали да а чтобы не проговорили фразу они же люди они скорее всего скажут ее интонационно правильно это совсем большинство людей если выбрать большинство ну во первых это мне кажется сильно немножко разные задачи и предположение что они про говорят и правильно скорее всего когда мы когда мы просим пользователя что-то сделать спасибо исполнители в таки что то сделать каждый сделает это по-разному и по-своему мы внесем еще какой-то дополнительный шум эти это довольно сложно будет использовать ларису же свой голос очень хорошо а еще был вопрос алиса насколько сейчас уже развилась то есть и как вы оцениваете тому по 10 бальной шкале где вы сейчас находитесь а где 0 и 10 этаж толку ноль это соответственно 0 а 10 это человек и по сути и с которым можно вести беседу речь которую не отличит но 10 стандартных вопрос когда вы не можете отличить это искусственный интеллект или человек ну тоже самое с алисы по сути если она сможет разговаривать так что нельзя будет понять человек это или не человек то это некая 10 смотрите во-первых у алисы есть такое аспекту что она должна быть лучше человека потому что она должна уметь не просто поговорить с человеком на и ответить на все его вопросы там не знаю поискать для него ассистенток может хочется чтобы мы были лучше человека в этом моменте по поводу того что мы то что мы разговариваем как мы разговаривать пользователь отвечаем на произвольные вопросы тут сложно сказать тоже мы сравнивая например сталкерами мы можем мы можем посоревноваться с ними в местности цветов и на уровне the locker а мы можем отвечать уточнение я правильно понял что вы с помощью то толоки пытаетесь оценить и или наоборот сгенерировать ответы на которые пока что система не знает ответов и если да у меня такой вопрос ну где то нам несколько лет назад читал что подобный эксперимент делал садата corolla сос использовать для генерации ответов и получался довольно такое разорванный интеллект потому что разные люди отвечают ну и собственно но как раз это мы и лис хамить может или там ну как бы не совсем хорошее качество ответов получалось сейчас мы используем толку для скорее оценки ответов для ответов которые мы выдаем по по разным параметрам ну в том числе локально с используется и для того чтобы помогать делаться лесу мне но скорее не в таком вот просто диалоги которые нужно поддерживать например если пользователь задает какие-то короткие вопросы на которые возраст путина из что нибудь в этом духе то с помощью налогов мы пополняем базу таких ответов то есть учим алису как можно чаще отвечать непосредственно в диалоге они отправлять пользователя в поиск факторы и запросы скорее чем алиса является целевым чат-бота или ну это ты голосовым или болтал кой то есть как бы полноценно и синтез текст синтез и и ответа как она отвечает она выбирает ответ из базы уже заготовленных шаблонов которые кажутся наиболее уместными или генерирует его через нейросети и та и другая действительно переключается между этими двумя режиме режимами да хорошо а используют она тот спички-то который открыт у яндекса для всех разработчиков или вас кит свои наработки один и тот же хорошо и вы ее продаете как какой-то отдельный может быть продукт бот не будут предоставляется для решения не знаю в магазин и я еще более компетентные коллеги здравствуйте меня зовут анастасия данилина я как раз отвечаю за развитие би ту би направления в одессе я лесу как таковой мы не лицензирует не клонируем мы не отдаем пока наружу но мы сделали платформу я яндекс диалогия которая позволяет бизнесом подключиться в алису создать свои навыки из таким образом предлагать сервис и услуги товары аудитория лис спасибо большое вы упомянули что вы набираете корпус речь плюс attack ставка через толоку сколько вам нужно вообще говорят объем данных чтобы обучить но ты за сколько вы набрали через нее чем плащи тем лучше то есть мы постоянно напоминаю павел пополняем наш корпус даль и именно потому как я говорил что люди действительно спрашивают разные вещи даже новые самый простой пример новый дом гаджеты музыка то от чего ну как бы мы не знали раньше чего их раньше вообще не было поэтому нам постоянно нужно набирать новые данные вас задание это аудио клип и они должны дать текстовку