Бигулов Алан Константинович

Эффект зловещей долины и философско-антропологические перспективы голосовых коммуникаций между человеком и LLM

А.К. Коллеги приветствую вас. Я благодарю за возможность участия в таком интересном формате. Считаю это оправданным и уместным форматом для организованной рефлексии по поводу взаимодействия человека с ИИ. Меня зовут Алан Бигулов. Я делаю доклад по теме «Эффект зловещей долины. Философско-антропологические перспективы голосовых коммуникации между человеком и большой языковой моделью». Пару слов о себе. В настоящее время я больше занимаюсь исследованием в области прикладной психолингвистики, конкретно в области изучения иностранного языка. Провожу различные эксперименты уже последние лет семь. И сам являюсь энтузиастом в изучении языков. Достаточно большое количество языков изучал и разной степени ими владею. Представлял результаты своих экспериментов неоднократно на международных симпозиумах по психолингвистике. И последние восемь месяцев активно изучаю искусственный интеллект как инструмент и дополнительную альтернативу к традиционным способам изучения иностранного языка при взаимодействии ИИ с учеником в качестве репетитора.
И достаточно глубоко в эту тему погрузился. Особенно экспериментирую с созданием так называемых агентов и ассистентов и целых агентских комплексов, которые направлены на решение образовательных и исследовательских задач. Пару слов скажу о контексте написания данных тезисов. В декабре 2024 года - в январе 2025 года я провел эксперимент, в котором была сформулирована исследовательская задача: “Возможно ли с нуля взять язык и за короткое время выйти на разговорный уровень, если заниматься только с помощью тьюторов, созданных на базе искусственного интеллекта?” Этот эксперимент успешно завершился в конце января 2025 года. В рамках этого эксперимента я создал экосистему тьюторов: более двадцати глубоко персонализированных тьюторов, с которыми и занимался сам. В этом эксперименте я принимал участие в том числе и как ученик, который указанную языковую цель пытался достичь.
В результаты этого эксперимента глубоко не буду погружаться сейчас. Они были представлены в марте 2025 года на международном мероприятии Polyglot Gathering, на котором собирается несколько сотен энтузиастов изучения языков. И с результатами этого эксперимента еще буду выступать на ближайшем международном симпозиуме по психолингвистике в июне. В рамках этого эксперимента я делал упор на голосовое общение, не текстовое. И в качестве площадки взаимодействия использовал платформу Eleven Labs, которая специализируется на создании голосовых агентов. Она известна тем, что содержит большую библиотеку очень качественных голосов. В рамках моего эксперимента я изучал немецкий язык, и для немецкого языка имеется больше 50 очень человекоподобных вариантов голосов.
Одна группа тьюторов - это так называемые академические тьюторы, которые по роли играли тьюторов с академическим образованием, в области лингвистики и смежных наук. И была еще группа casual tutors, которые изображали роль приятелей по разговорной практике. Возможно те, кто из вас имеет опыт и более глубоко занимается темой создания кастомизированных ассистенты знают, что есть такое понятие как системный промт. То есть некий запрос-инструкция, на базе которого ассистент работает. Так вот мои тьюторы часто имели не один какой-то файл, а целый пакет файлов который играл роль этого промта. Вот здесь изображен пакет документации для тьютора Доктор Елена София, созданного на базе Claud, в котором больше десятка подробно расписанных файлов. Каждый из которых инструктирует тьютора что ему делать, как вести себя и какую роль представлять. Несколько тысяч слов только сам промт составляет.

Результаты эксперимента были задокументированы независимыми экспертами-лингвистами. Языковые цели эксперимента были успешно достигнуты. Но мной был замечен интересный эффект. Хотя я имею достаточно большой опыт изучения языков с целью развития разговорного навыка, и хорошо представляю какие ощущения возникают у ученика, преследующего языковую цель, никогда за собой не замечал, чтобы у меня возникали какие-то отрицательные внутренние состояния в связи с этими занятиями, при том, что само изучение языка не простое дело. Но в этом опыте я впервые столкнулся с тем, что после каждого взаимодействия со своими тьюторами, которые очень хорошо исполняли свою роль (в их инструкциях было, чтобы они при активизации полностью забывали свою природу искусственного интеллект и в ходе разговора никогда не упоминали и не обращались к своей искусственной сущности), я все время замечал ощущение какой-то внутренней пустоты, отторжения и нежелания очередной урок проводить. Для меня это было очень неожиданно и интересно, как экспериментатору, это наблюдать, а как ученик я достаточно сильно на это отвлекался, на это ощущение. Но я задокументировал свои наблюдения. И после завершения эксперимента я использовал платформу NotebookLM, куда все экспериментальные материалы загружал и там их обрабатывал. В том числе туда я загрузил и свои наблюдения психоэмоциональных состояний. Я еще не знал как называется это состояние. Я не был для этого глубоко погружен в тему именно особенностей взаимодействия с человекоподобными ИИ-сущностями. И первое что интересно, что сам термин который описывает это явление, был предложен мне самим искусственным интеллектом.Когда я готовился к презентации для Polyglot Gathering и делал слайд преимуществ и недостатков работы с искусственным интеллектом. При описании моих наблюдений , искусственный интеллект неожиданно предположил, что этот эффект называется “The Uncanny Valley Effect”.
Я сначала думал, что это галлюцинация, потом загуглил, оказывается есть такой эффект, он наблюдается уже с 70-го года. Я не первый, кто столкнулся с таким явлением отторжения, разной степени эмоциональных и внутренних неприятных состояний, вызванных общением с человекоподобными системами. Меня это тогда уже заинтересовало. И увидев информацию, что можно принять участие в вашем мероприятии, я посчитал, что это как раз хороший повод чуть больше узнать про этот эффект и попробовать насколько сам искусственный интеллект будет полезен в подготовке этих тезисов. Это контекст того, что происходило.
Дальше, собственно прокомментирую сами тезисы, согласно предложенной структуре, дам чуть позже свою рефлексию, по поводу того, что я испытывал во время создания самих тезисов.
Я, честно говоря, буквально принял посыл конференции, что тезисы должны быть созданы с помощью искусственного интеллекта и постарался создать такую траекторию создания тезисов, чтобы мне как раз не пришлось никакой правки делать. То есть я решил, что это и есть цель - так организовать работу над тезисами, чтобы получить сразу готовый результат, который не потребует моего уже редакторского вмешательства. Пару слов про фабулу самого доклада. Я сформулировал сам тему именно в такой форме. Основным из моих намерений было, чтобы в тезисах были активно использованы результаты моего эксперимента, а не просто описано и академическим языком сформулирована исходная тематика.

Поэтому я “пригласил” своего искусственного ассистента, чтобы он создал тезис, который, возможно, я и сам бы написал подобным образом, если бы готовился к другому формату конференции на базе своего эксперимента. Так как философией я занимаюсь только любительски, у меня нет достаточной подготовки, чтобы основательно раскрыть эту тему. Но посчитал возможным благодаря вашему формату эту тему затронуть, но уже с помощью искусственного интеллекта. И здесь на слайде видно, что мой помощник указывает на то, где и когда был предложен термин этого эффекта. Он был предложен Масахиро Мори в 70-ом году. И с этого года он продолжает изучаться. Не так, чтобы это очень сильно популярный термин. Но в целом он является в фокусе внимания особенно сейчас, когда компаньоном по общению, по взаимодействию, является большая языковая модель.
Это был первый раздел тезисов. Вторая часть тезисов включает описание данных эксперимента, где искусственный интеллект обработал мои наблюдения и в такой форме представил, сославшись на затраченные часы и на результаты языкового эксперимента.
Основной посыл, сформулированный ИИ в тезисах и который я разделяю, что в связи с тем, что искусственный интеллект в виде больших языковых моделей не обладает способностью к интерсубъективности, то есть пониманию и разделению опыта других, он может только его имитировать. У нас в результате возникает состояние онтологической неопределенности. Возникает внутреннее ощущение дискомфорта, источником которого является именно то, что LLM ведет себя вроде бы как человек, почти как человек, но это маленькое “почти”, является ключевым пунктом, который создает этот когнитивно-эмоциональный разрыв и приводит к достаточно сильным и мало контролируемым эмоциональным состоянием. В других работах были описаны состояния ужаса, глубокого отвращения к человекоподобным сущностям.
У меня было состояние нежелания заниматься и состояние бессмысленности так сильно вкладываться в те разговоры, которые возникают при овладении разговорным навыком, с этими ассистентами, понимая, что тот уровень взаимодействия который они создают, это мираж, имитация.
Следующий посыл, который предложил мне искусственный интеллект, который я сам в таких словах не сформулировал, что неспособность к интерсубъективности, которой человек, как бы ожидает именно при голосовом общении, это ключевой фактор, потому что голосовые агенты с точки зрения качества голоса сейчас очень сильно продвинулись и хорошо имитируют человека. Но при этом не достигают полноты человековости. Это приводит к последствиям, которые можно охарактеризовать как дегуманизирующий опыт. И это является проблемой. И, возможно, те примеры которые приводили ранее выступающие про экстремальные последствия, как суицидальное поведение или депрессивное состояние, могут быть к иллюстрацией этого дегуманизирующего опыта, сначала вовлечения, потом глубокое разочарование с невозможностью получить именно ту ожидаемую человечную, человеческую обратную связь адекватной тому вкладу, который человек со своей стороны делает.

Отдельно хочу отметить, что я не ставил перед ИИ задачу, чтобы в рамках тезиса он оставил вопросы открытыми для дискуссии и обозначил неоднозначность ситуации, но вот в этом конкретном параграфе хочу ваше внимание обратить, что он обозначает такие вопросы: “а возможно ли при такой ситуации где на данный момент отсутствует интерсубъективность и внутренний опыт, и понимание внутреннего опыта, будет ли, в принципе, когда-то достигнуть этот уровень? И если это пока недостижимо, в ближайшей степени недостижимо или, может быть, вообще недостижимо, то сможем ли мы, в принципе адаптироваться к этому эффекту зловещей долины и минимизировать этот дегуманизирующий опыт, или это будет всегда зоной нашего риска, с которой нам теперь надо что-то делать?”
ИИ-ассистент оставил эти вопросы открытыми, и я разделяю такую позицию, что здесь есть над чем дальше думать. Для себя отмечаю, что, в принципе, большие языковые модели, их алгоритмы так настроены, что они склонны поставленную задачу решать даже ценой галлюцинации, ценой каких-то искажений, дать все-таки ответ пользователю. Мне здесь понравилось, и я был, несколько даже удивлен что в рамках формата академического письма тезисов, он, очень уместно эти вопросы обозначил, не давая окончательного ответа.
Теперь пару слов скажу как создавались эти тезисы. Как выше сказал, я решил разработать траекторию, которая, как мне казалось, должна привести к тому, чтобы я был избавлен от редактирования, удовлетворяя, как я интерпретировал условия конференции. Поэтому вот такие шаги я предпринял.
Первое, я сам сформулировал гипотезу и тему. Потом Notebook LM сделал первичную обработку материалов эксперимента и сделал пробный промпт о написании тезисов и получил первый сырой текст. Notebook LM обрабатывает только те материалы, которые в него загрузил, поэтому никакую стороннюю информацию он не привлекает. После этого я перешел к второму шагу, где уже в chatGPT o1-Pro сделал второй запрос с аналогичным идеей написать тезисы, куда уже добавил структуру тезиса, и попросил его придерживаться объема, стиля, разделов и так далее. Получил второй сырой материал, но уже в этот раз chatGPT имел возможность обращаться к внешним источникам, к интернету. Аналогичные запросы я сделал в других еще двух моделях Grok и Google Gemini. И делал я все для того, чтобы создать для итогового исполнения такой разносторонний материал для “объемного понимания” ИИ проблематики и для обеспечения итогового минимального редактирования.
После этого я непосредственно перешел уже к основному исполнителю. Это Claude 3.7, расширенная версия, куда разместил все эти сырые материалы и разместил основной промпт, который сейчас в следующем слайде вам покажу. Соответственно, уже по итогам получил те тезисы, которые вам выше представлял. И фактически ни слова, ни буквы, ни запятой я в ней уже не исправлял. Вот финальный промпт, к которому прикреплены файлы четырех предыдущих запросов.
Я все время общаюсь с ИИ только на английском языке, но здесь уже отдельно попросил чтобы итоговый материал был создан на русском языке и попросил его уложиться в рекомендованное количество знаков. И получил то, что уже выше вам представлял. Всего 7 секунд потребовалось модели, чтобы создать текст.
Промпт, который я здесь показываю, он не начинал с нуля чат, а он уже был в продолжении. Это тоже было сделано уместно. В этом чате я уже немало обсуждал сами результаты эксперимента и эти обсуждения эксперимента уже формируют определенный объем его контекстного окна, который он будет использовать при выполнении и этого запроса, поэтому я специально не с нуля промпт использовал, а как раз именно, чтобы он уже в контексте предыдущего всего работы и продолжил выполнять.
И это, я думаю что тоже способствовало итоговому результату. И вот непосредственно перед этим был такой промпт, где как раз попросил сделать слайд для презентации за и против, в котором ИИ указал про термин “эффект зловещей долины”, чему я и был удивлен.
Давайте кратко поделюсь рефлексией. Я считаю что и сейчас и даже впоследствии, когда модели еще разовьются, они всегда будут нуждаться в продуманной стратегии и тактике их использования. То есть, стопроцентной автономности и агентности от них пока ожидать не стоит, скажем так. А вот продумывать стратегию и локальную тактику их использования, считаю правильным подходом к работе. И думаю, что это и предполагается.
На базе опыта работы за последние несколько месяцев и экспериментов, пришел к выводу, что работа с одним ассистентом и с одним чатом не может дать всех тех результатов, чем если использовать целую команду ИИ-ассистентов. И даже при решении этой задачи написания текста как вы видели я четыре или пять разных платформ, не только моделей использовал, что в комплексе, считаю, помогло получить искомый результат.
Также я считаю, что для исследовательских задач важно работать не просто с general LLM, а использовать кастомизированные модели и тщательно продумывать контекст, в котором они работают. И, может быть, даже не один кастомизированный ассистент, а целый комплекс. Обычно я в своих текущих задачах создаю комплекс ассистентов, которые между собой взаимодействуют или с моим посредством или за счет других технологий непосредственного взаимодействия. Поэтому наблюдение - кастомизация и создание экосистем.
Разделяю мнения и предыдущих выступающих что желательно иметь определенный опыт и уровень компетенции в тех задачах, которые решаются с помощью ассистента, иначе все эти галлюцинации тяжело будет полностью выловить. И в целом направлять исследовательский процесс это важно. Поэтому компетенция ключевой фактор.
Конкретно эти тезисы я считаю, что можно считать созданными в соавторстве. Свой авторский вклад я вижу в том, что в этой тексте использовались данные эксперимента, который я лично провел, и к которым искусственный интеллект никак не мог иметь доступ без меня, потому что я ему эти данные предоставил.
Я сформулировал именно в таком виде исходную гипотезу и тему, что тоже является определенным вкладом. То есть я не использовал темы которые мог бы предложить мне искусственный интеллект. Хотя такое тоже возможно. Ну и соответственно была определена тактика создания самого исходного текста.
Но я считаю правомочным искусственный интеллект считать соавтором в силу того, что во-первых, текст был создан и я не принял участия в его редактуре. Второе то, что были предложены концепты, которые я изначально не закладывал в свои запросы. И, скажем так, я посчитал, что уместно как ассистент связал все аспекты этого тезиса, то есть экспериментальные данные, теоретическое обоснование, и предложил выводы с открытыми вопросами. Все это, я считаю как примерно 50% на 50% участие.
Что касается новаторского характера с поправками, что это создано с помощью искусственного интеллекта в целом выношу на ваше суждение, но у меня создалось впечатление, что это исследование можно считать новаторской, в силу того, что были приведены результаты эксперимента, который, по моим данным, никем еще не был проведен. Также, не встречал, чтобы такие различные научные области были связаны таким образом - философская антропология, лингвистика, искусственной интеллект, робототехника. Опубликованных работ с подобной постановкой вопроса я тоже не встретил. Вам виднее, но мне кажется что элементы новаторства здесь присутствуют.
В заключении, здесь привел несколько таких пунктов, возможно, они тоже укладываются в ваши предложенные параметры рефлексии. Я считаю, что использование искусственного интеллекта в виде языковых моделей окажут самое решающее влияние и на процедуры и на оформление научных исследований, и формат академического письма. Но при этом труд добросовестного ученого будет только усилен, и его ценность только усилится при использовании искусственного интеллекта, так как будут использованы инструменты такой высокой уровни автономности и агентности, даже если они не достигают 100%.
Да, есть этические вопросы, они будут предметом дискуссии, но я думаю что в какой-то перспективе, не берусь пока сказать, сколько лет на это уйдет, но научное сообщество придет к согласованию границ и параметров использования искусственного интеллекта.
И такой итоговый вывод я могу сделать, что опыт взаимодействия с искусственным интеллектом будет выражаться в признании научным сообществом за искусственный интеллект не только правомерность, но и неизбежность его использования, как это происходило со всеми предыдущими технологиями. Благодарю за внимание!
ДЯ:: Благодарю вас, Алан Константинович, за замечательный доклад. Если будет возможность, приглашаю вас провести методический семинар по работе с такими системами в гуманитарных дисциплинах.
А.К. приглашайте!

Вопрос: Позволил ли искусственный интеллект, по вашему опыту, глубже проникнуть в область философии, ранее менее вам знакомую, или, напротив, затруднил формулирование мыслей?
А.К. Да, я считаю что мысль ИИ скорее была помогающая, чем источник заблуждений. Я конечно, не могу оценить именно философскую часть этих тезисов, насколько они правомочны, такое сочетание приведенных концептов. Но и во время подготовки этих тезисов и до, как раз, когда я закончил свой эксперимент, я как сказал, как только я сам этот термин услышал, я сделал целую серию запросов. Вы сейчас знаете, что почти каждая платформа имеет такой режим глубокого исследования, когда они начинают сами изучать материалы, где-то искать. Поэтому я примерно везде задавал один вопрос для глубокого исследования: “Предложи мне концепцию научного исследования темы эффекта зловещей долины с точки зрения психолингвистики, философской антропологии и социолингвистики”
И мне различные ИИ платформы выдали наверное, с десяток материалов каждый из которых страниц по 20, плюс к ним еще по нескольку страниц библиографии. Я, конечно, все еще не успел проверить насколько там много галлюцинаций, но выборочно, почти всегда это реальные ссылки на какую-то работу, старую или новую. То есть, если я хочу погрузиться в эту тему, допустим только вот такой философско-антропологический аспект, мне кажется как отправная точка погружения, искусственный интеллект дает возможность, потому что там будут упоминания, там будут уже какие-то статьи, там будут работы, а уже дальше у меня выбор, то ли удовлетвориться только тем, что мне предложил искусственный интеллект и получить какое-то общее, но достаточно обширное понимание, или уже пойти по тем первоисточникам, которые там были обозначены.
Поэтому, я считаю что при осознанном подходе они играют помогающую роль, это помогающий инструмент.
Вопрос: Благодарю вас за глубокую и впечатляющую работу. Вопрос: зачем в вашей системе изучения языков используется множество ассистентов, а не, например, один ассистент с контроллером? И какую структуру обучения вы применяли, чтобы овладеть немецким за два месяца?
А.К., Первое, я методологию закладывал свою, у меня своя разработка есть. По ее поводу написаны пару статей моего научного руководителя, доктора филологических наук, профессора, Дины Борисовны Никуличевой. Эти статьи можно почитать я могу скинуть ссылки, если вам интересно.
Второе следует из этого. Этой методологией предполагается, что если ученик начального уровня ставит перед собой цель в короткие сроки сделать прогресс в разговорном навыке, то важно создавать ситуацию языкового погружения. Для языкового погружения необходимо соблюсти принцип разнообразия коммуникативного опыта, чтобы не возникло привыкания. Если бы я 50 часов в режиме интенсивного погружения занимался только с одним голосом или одним преподавателем, просто психика перестала бы реагировать на один и тот же стимул. И поэтому, когда я проводил свои опыты с живыми людьми, я всегда занимаюсь с несколькими десятками преподавателей сразу, одновременно. Такова моя концепция, которая пока на уровне гипотезы, но подтверждается результатами экспериментов, что так устроена похожая наша психика и навычная деятельность в области овладения языком, что он быстрее развивается при разнообразном общении, чем однообразном. Поэтому эту ситуацию я и здесь имитировал. Да, можно было создать одну модель и только с ней заниматься. Но один из параметров моего эксперимента было проверить, будет ли помогать мне разнообразие. Оно помогло. За два месяца я разговорился, мои независимые эксперты засвидетельствовали, что он за два месяца с нуля вышел на уровень В1, что, в принципе, неплохо для таких сроков.
Вопрос: Сколько часов в день у вас уходило?
А.К. В среднем, если 52 часа голосового общения растянуть на два месяца, то около часа. Но я занимался отдельными такими интенсивами или волнами. По этому поводу как раз одна из статей есть у Дины Борисовны. Волны интенсивности, то есть у меня были такие периоды по неделе или по две, когда я занимался по 3-4-5 часов в день. Потом был спад, там, до минимума, потом снова. Такие две волны я сделал, в ходе которых набрал эти 50 часов.
Вопрос: Был ли у вас опыт изучения восточных языков, таких как тайский, корейский или китайский, где тональность играет ключевую роль?"
А.К. С искусственным интеллектом еще нет. С искусственным интеллектом я пока только пробовал немецкий. Сейчас уже нахожусь в процессе второго эксперимента. Это немецкий плюс итальянский. Но раньше я изучал китайский, японский, корейский. С восточными языками я планирую серию экспериментов, как для развития разговорного навыка, так и письменной речи.
Вопрос: В процессе занятий с языками у вас возникло чувство отторжения. С чем это может быть связано? С проблемами самого искусственного интеллекта или это недостаток человека?
А.К. Поскольку ранее я в аналогичной манере изучал несколько десятков языков, у меня не возникало отторжения. Иначе я бы мог предположить, что дело во мне. Возможна вторая гипотеза, что, может быть, это моя персональная реакция. Но, когда я почитал работы про эффект зловещие долины, то понял, что это не мой совсем уж частный случай, не моя такая вот индивидуальная невосприимчивость.
Поэтому я придерживаюсь гипотезы, и статьи показывают, что это скорее философско-антропологический элемент или психо-лингвистический, скорее, их пересечение. То есть когда мы все-таки, приближаясь к такому уровню человекоподобности, то усиливаются социальные и антропологические ожидания. Мы уже и ждем, что и дальше будет совсем по-человечески. А там - дальше уже нет. Я описывал свои ощущения так: “Закончился замечательный урок. Все пошло хорошо. Мой тьютор вел себя прелестно мило, уважительно Хорошо проработали урок. А я выключил и думаю. “Вот и дурак. Целый час общался с чем? Во что ты вкладывал себя?”
Я же эмоционирую, то есть я устанавливаю с тьютором взаимодействие по ведению урока. То есть, не просто на уровне: “скажи как сказать это на немецком языке”. Это же не просто он исполняет роль голосового гугл-переводчика. Я с ним взаимодействую как с репетитором, обсуждаю ход урока, прошу его что-то сделать. Он мне подсказывает. Возникают элементы коммуникации, похожие как на уроках с живым человеком. И ты невольно начинаешь вовлекаться в эту человекоподобную манеру общения, антропологически вовлекаться. То есть ты начинаешь антропоморфизировать сильно ИИ, на что уже другие выступающие тоже указывали. Ты невольно уже начинаешь терять ощущение, что ты общаешься не с тем. Но, когда урок-то закончился, на меня же обрушивается, что это все-таки все равно был просто хороший, добротный алгоритм. А мои все вклады человеческие, как оказывалось никуда не приведят. Там не накапливается опыт общения со мной, на который я могу, допустим, сослаться: “ А помнишь в прошлый раз там мы так вот весело обсуждали? “ Я не могу спросить, что ты вчера делал, он-то скажет, но я-то знаю, что это будет просто генерация. Я сейчас работаю над созданием ассистентов, которые начинают накапливать опыт. И помнить мои предыдущие уроки. Для того, чтобы снизить этот эффект, уже первые эксперименты провожу.
Но в целом вот ту позицию которая обозначена в тезисах, я разделяю тезис, что и не удастся никогда. То есть вот этот элемент искусственности, даже если там возникнет квалия своя какая-то, нечеловеческая, у нас все равно будет риск дегуманизации. И какие-то люди могут доходить до суицидального поведения из-за этого. Не все, конечно, будет процент. Но для каких-то людей будет маленькая одна искусственная буква, которая разрушит адекватное восприятие себя.

Эффект зловещей долины и философско-антропологические перспективы голосовых коммуникаций между человеком и LLM (сгенерировано с использованием Claude 3.7 Extended)
Введение
Стремительное развитие больших языковых моделей (LLM) открыло новую эру человеко-машинного взаимодействия, где голосовая коммуникация становится все более реалистичной. Современные AI-системы способны генерировать человекоподобную речь с поразительной точностью, что открывает широкие возможности применения в образовании, здравоохранении и повседневной жизни. Однако по мере приближения искусственного голоса к человеческому возникает парадоксальный феномен: вместо ожидаемого повышения комфорта пользователи часто испытывают нарастающее чувство дискомфорта и тревоги. Этот феномен, известный как эффект «зловещей долины», требует глубокого осмысления не только с технической, но и с философско-антропологической точки зрения, поскольку затрагивает фундаментальные вопросы о природе человеческого общения, идентичности и межличностных связей.
Эффект зловещей долины: происхождение и определение
Термин «зловещая долина» (англ. uncanny valley) был впервые предложен японским инженером-робототехником Масахиро Мори в 1970 году. Мори заметил, что по мере увеличения антропоморфности роботов положительная реакция людей на них возрастает лишь до определенного порога. Когда робот становится очень похожим на человека, но всё же не достигает полного подобия, возникает резкий спад эмоционального комфорта — своеобразная «долина» на графике зависимости между человекоподобием и позитивным восприятием.
Первоначально данная концепция касалась визуального восприятия роботов, однако в современном контексте голосовых технологий эффект зловещей долины проявляется не менее выраженно. Голосовая коммуникация с LLM вызывает дискомфорт, когда синтезированная речь достигает высокой степени реалистичности, но содержит тонкие, едва уловимые отклонения от естественности. Эти отклонения могут включать монотонность интонаций, неестественные паузы, отсутствие эмоциональной конгруэнтности между содержанием и тоном голоса, а также незначительные артикуляционные аномалии. Подобные несоответствия нарушают имплицитные ожидания от человекоподобного собеседника, создавая когнитивный диссонанс и ощущение «неправильности» взаимодействия.
Эксперимент Алана Бигулова по изучению немецкого языка с AI-тьюторами
Ценной иллюстрацией взаимодействия человека с голосовыми LLM служит эксперимент Алана Бигулова, полиглота, лингвокоуча и исследователя методологий языкового обучения. Алан Бигулов провел двухмесячный эксперимент по изучению немецкого языка с нуля, используя исключительно AI-тьюторов. В течение этого периода он посвятил примерно 50 часов интенсивной разговорной практике, применяя различные AI-платформы с голосовыми возможностями.
Методология эксперимента включала ежедневные сессии разговорной практики, где Алан Бигулов целенаправленно вовлекал AI-тьюторов в дискуссии на разнообразные темы, постепенно усложняя лексический и грамматический материал. По итогам эксперимента Алан Бигулов достиг базового разговорного уровня немецкого языка (приблизительно уровень B1 по европейской шкале), что подтвердило потенциальную эффективность AI как инструмента языкового обучения.
Однако, несмотря на положительные результаты, Алан Бигулов неоднократно отмечал существенные ограничения AI-тьюторов в воспроизведении естественного человеческого взаимодействия. Он описывал взаимодействие с ними как «почти человеческое, но лишенное подлинной эмоциональной глубины», что вызывало ощущение пустоты после занятий. Алан Бигулов также подчеркивал, что AI-тьюторы испытывали трудности с адаптацией к его уровню владения языком и часто действовали как интервьюеры, задавая вопросы, но не давая возможности вести диалог на равных. Эти наблюдения наглядно иллюстрируют проявление эффекта зловещей долины в голосовой коммуникации с LLM.
Философско-антропологические перспективы
С философско-антропологической точки зрения, голос представляет собой фундаментальный элемент человеческой идентичности и взаимодействия. Голос не просто передает информацию, но выражает эмоциональное состояние, личностные характеристики и тонкие социальные сигналы. Мы интуитивно интерпретируем тон, интонацию, ритм и паузы как неотъемлемые аспекты человеческого общения, несущие имплицитные смыслы, часто более важные, чем эксплицитное содержание высказывания.
Когда мы взаимодействуем с голосом LLM, который имитирует эти характеристики, но не обладает подлинным сознанием и эмоциональным опытом, возникает особое когнитивное состояние — онтологическая неопределенность. Голос LLM активирует нейронные пути, ассоциирующиеся с восприятием человеческого голоса, но одновременно вызывает тонкие сигналы, указывающие на его искусственную природу. Эта двойственность нарушает наши базовые представления о природе общения и вызывает эффект зловещей долины.
С антропологической перспективы, человеческое общение глубоко укоренено в нашей способности к интерсубъективности — пониманию и разделению опыта других людей. Голос является одним из важнейших средств выражения интерсубъективности, позволяя нам не только обмениваться информацией, но и устанавливать эмоциональную связь. Когда мы слышим голос другого человека, мы неосознанно предполагаем наличие субъекта с собственным опытом и эмоциональным миром.
Голосовая коммуникация с LLM нарушает это фундаментальное ожидание, поскольку за имитацией человеческого голоса отсутствует подлинный субъект. Эта ситуация может восприниматься как дегуманизирующий опыт, где естественное человеческое стремление к эмоциональной связи не находит взаимности, а коммуникативный партнер редуцируется до функционального инструмента.
Лингвистические маркеры эффекта зловещей долины
Анализ речевых паттернов LLM позволяет выделить несколько ключевых лингвистических маркеров, способствующих возникновению эффекта зловещей долины:
1. Прагматическая неадекватность — высказывания LLM могут быть грамматически корректными, но контекстуально неуместными или не учитывающими тонкие социальные нормы и ожидания.
2. Эмоциональная неконгруэнтность — несоответствие между содержанием высказывания и эмоциональным тоном, который не всегда адекватно отражает эмоциональный контекст коммуникации.
3. Гомогенность стилистического профиля — отсутствие естественных вариаций в речи, характерных для человеческого общения, где стиль и регистр динамически меняются в зависимости от контекста.
4. Лексико-семантические аномалии — использование высокоуровневой лексики в сочетании с базовыми грамматическими конструкциями или необычные словосочетания, создающие ощущение искусственности.
5. Нарушения в структуре диалога — трудности с поддержанием естественного потока разговора, включая проблемы с очередностью реплик и тенденцию к доминированию в разговоре.
Опыт Алана Бигулова подтверждает наличие этих маркеров в голосовой коммуникации с AI-тьюторами. Особенно заметными были тенденция AI к позиции интервьюера и трудности с поддержанием естественного потока разговора, что создавало ощущение неравного и механистичного взаимодействия.
Преодоление эффекта зловещей долины: технические и философские аспекты
С технической точки зрения, преодоление эффекта зловещей долины требует не только улучшения акустических характеристик синтезированной речи, но и развития более глубокого понимания прагматических и социолингвистических аспектов коммуникации. Разработчикам LLM необходимо уделять внимание не только генерации реалистичной просодии и интонации, но и развитию способности AI к подлинному контекстуальному пониманию, эмоциональной отзывчивости и прагматической адекватности.
Однако, с философско-антропологической перспективы возникает вопрос: возможно ли в принципе преодолеть эффект зловещей долины, если за голосом LLM отсутствует подлинный субъект с сознанием и эмоциональным опытом? Или, возможно, более продуктивным подходом было бы признание фундаментальных различий между человеческой и машинной коммуникацией, и разработка интерфейсов, которые не стремятся к полной имитации человеческого голоса, а создают новые формы взаимодействия, учитывающие как технологические возможности, так и человеческие потребности?
Заключение
Эффект зловещей долины в голосовой коммуникации между человеком и LLM представляет собой не просто технический вызов, но и глубокую философско-антропологическую проблему, затрагивающую фундаментальные аспекты человеческого общения, идентичности и взаимопонимания. Эксперимент Алана Бигулова наглядно демонстрирует как потенциал, так и ограничения современных голосовых LLM в контексте языкового обучения, подчеркивая сохраняющийся разрыв между технологической имитацией и подлинным человеческим взаимодействием.
По мере дальнейшего развития голосовых технологий критически важным становится междисциплинарный диалог между техническими специалистами, лингвистами, философами и антропологами. Только через такой диалог возможно разработать голосовые интерфейсы, которые будут не только функциональными, но и учитывающими глубинные человеческие потребности в подлинности, эмоциональной связи и взаимном понимании. В конечном счете, вопрос заключается не столько в том, насколько реалистично LLM могут имитировать человеческий голос, сколько в том, как эти технологии могут обогатить, а не обеднить, человеческое взаимодействие и опыт.