Поговорим?

Поговорим?

Парадоксально, но факт: социальная природа человека, которого можно было бы запросто окрестить "болтающий", а не "разумный", по-прежнему слабо поддерживается компьютерными технологиями.

Коммуникативность иногда является куда более сильным дифференцирующим фактором, нежели биологические отличия, так что, невзирая на общие интересы с кроликами (а таковые точно имеются), нам все же ближе сравнение с телефоном. Существует как минимум одна точка зрения, согласно которой такое оскорбительное сравнение венца творения с примитивным устройством связи абсолютно правомерно: телефон бессмысленен сам по себе, в отрыве от других аналогичных устройств и соответствующей инфраструктуры. Человек почти столь же невозможен вне контакта с себе подобными. Робинзон Крузо у Даниеля Дефо, а пуще того — у Мишеля Турнье — красочное тому подтверждение. Возможность просто так, безо всякого повода, по-простецки поболтать в некоторых ситуациях дороже бесчисленных материальных благ, и компьютеры в этом смысле бесконечно далеки от идеала. Отбросив такие приземленные вещи, как кодирование сигнала или его прямая передача в сети, можно оценить речевые возможности компьютерных систем — распознавание и синтез — как неудовлетворительные в большинстве случаев.

То, насколько эта тема важна, подтверждает прогноз IBM, оценивающий рынок "речевого" программного обеспечения в 30-50 млрд долларов в год. Безусловно, цифры эти слабо соотносятся с текущим состоянием дел и связаны, в первую очередь, с тем, насколько удачно будет продвигаться инициатива компании под амбициозным названием Superhuman Speech (SHS). "Сверхчеловеческая речь" является широкомасштабным проектом, объединяющим многочисленные разработки компании по этому и смежным направлениям. У IBM есть более чем 30-летний опыт работы в этой сфере, но на реализацию SHS отведен срок в 8 лет, что лишний раз демонстрирует сложность поставленной задачи. Около 100 научных коллективов и индивидуальных исследователей по всему миру работают на эту корпорацию и с хорошо оплаченным оптимизмом смотрят в будущее. Дэвид Нааму, работающий в отделе речевых технологий IBM, вспоминает 1982 год и мнение своих университетских профессоров того периода, советовавших "оставить исследования в этом направлении" по причине их "несостоятельности и абсолютной невозможности получения каких бы то ни было положительных результатов на протяжении всей жизни". Несмотря на отсутствие широкого распространения таких технологий, Нааму считает, что ситуация совсем не столь безнадежна, и достигнутые результаты предполагают изменение ситуации уже в ближайшем будущем.
Как считают в IBM, глубина разработки темы уже весьма значительна, и на первый план выходят отнюдь не фундаментальные разработки глобального характера, а практические исследования в более узких областях. Технологии распознавания речи существуют и вполне успешно справляются с поставленными задачами, но их практическое применение затруднено или вообще невозможно в связи с широчайшим диапазоном условий предполагаемого использования. Тут и всевозможные трудности с восприятием акцентов, и влияние зашумленного окружения, и многочисленные (если не бессчетные) вариации произношения, обусловленные эмоциональным состоянием говорящего, его возрастными и физиологическими особенностями, и параметры канала связи, и т.д., и т.п. В зависимости от совокупности всех этих условий эффективность машинного распознавания меняется, но в целом по-прежнему в три-десять раз уступает человеческой.

IBM вступила на эту скользкую дорожку в 70-х годах вместе с Массачуcетским технологическим институтом, университетом Карнеги Меллоун и многими другими академическими брэндами. Первый успех был достигнут на основе использования статистического анализа. Как только лингвистика была связана с математикой, появилась возможность создания систем, оперирующих вероятностью появления данного слова в том или ином контексте. Обучают такую систему прокачивая через нее большой объем текстов, а полученные ею "навыки" можно позже использовать в практических условиях. За тридцать с лишним лет IBM прошла полный цикл разработки, стандартный для коммерческих продуктов, и сейчас предлагает решения для четырех различных направлений: технологию Via-Voice для профессионального и пользовательских применений; оснащение распознаванием речи встроенных устройств — например, автомобильной электроники (PDA попадают в ту же категорию); телефонные сервисы (WebSphere Voice Server); и, наконец, WebSphere Transcription Server предназначен для работы в медицине, больших управленческих структурах. В 2000 году IBM начала использовать речевые технологии в составе собственной инфраструктуры для ведения электронного бизнеса.
Целью SHS является не увеличение количества предлагаемых компанией продуктов, а улучшение их качественных показателей. Реальных направлений два. Первое: распознавание речи должно ориентироваться на широкий круг ситуаций и пользователей. Второй задачей является снижение количества ошибок распознавания до величин, позволяющих квалифицировать полученные результаты как превосходящие человеческие в аналогичных условиях. Достигнутые компьютерами средние значения сейчас составляют одну ошибку на двадцать распознанных слов. Человек тоже ошибается, но делает это раз в десять реже, обладая, к тому же, великолепными адаптационными возможностями. Компьютер может великолепно справляться с голосовыми особенностями пользователя, под которого он специально "обучался", однако тот вряд ли станет единственным звуковым источником во время работы — шумы окружения становятся причиной гарантированных помех и ошибок.
Есть еще один нюанс, вызывающий затруднения в распространении технологии. Большинство предлагаемых решений узко специализированы. В идеале требуется всеядная система, произвольно подключаемая к любым механизмам ввода, будь то микрофон в наладоннике, аналого-цифровой преобразователь на телефонной линии или что-то еще.

Ограниченность словарей (равно как и ограниченность словарем!) является еще одним камнем преткновения. Смышленые программные модули, легко справляющиеся с ограниченным набором команд, впадают в ступор, услышав нечто незнакомое, так что возможность обрабатывать незнакомые данные невероятно важна.
Понятно, что для работы в этом направлении нужен огромный объем речевых данных, в идеале разнообразных настолько, насколько это только возможно. IBM в составе целого консорциума, объединяющего весьма разношерстную аудиторию, состоящую из представителей академических кругов, бизнес-сектора и некоммерческих организаций (включая, например, Visual History Foundation, основанный Стивеном Спилбергом), получила грант на расшифровку и перевод огромного архива интервью и свидетельских показаний оставшихся в живых жертв холокоста. Проект носит название MALACH (любители Воннегута просто обязаны припомнить "посланника" Малаки из "Сирен Титана") и может быть переведен с иврита как "ангел" или тот же "посланник". Историческая ценность этих данных неоспорима, трудности в расшифровке — тоже. Более 100.000 часов записанной речи тысяч различных людей включают фрагменты на 32 языках (с частыми переходами с одного на другой). Естественно, каждый из интервьюируемых имел особенности произношения и акцента, зачастую пользовался каким-либо диалектом, а их эмоциональное состояние, учитывая предмет повествования, можно легко себе представить. Если автоматическая система распознавания речи справится с задачей подобной степени сложности, ей будет доступно очень многое. В IBM, по крайней мере, очень на это надеются.

Но на IBM, само собой, свет клином не сошелся. Помимо огромного числа энтузиастов-одиночек, заинтересованных групп и академических коллективов, упомянуть можно, например, Microsoft, выпускающую коммерчески доступные продукты и имеющую собственную группу исследователей; успешно обанкротившуюся Lernout & Hauspie из Бельгии, чей бывший босс, отсидев срок за финансовые махинации, занялся, как сообщал The Register, "разведением" электронных свинок по 60 фунтов за штуку. Сами разработки бельгийцев по-прежнему на плаву и имеют нового владельца — компанию ScanSoft. В Интернете можно найти массу информации по этой теме, что лишний раз свидетельствует о ее широте и предполагаемой перспективности. Однако если эти перспективы будоражат воображение, то многоплановость проблемы просто пугает. Принципиальное окончательное решение задач синтеза и распознавания соприкасается с таким количеством проблем, что подобное скептическое отношение здесь более чем уместно. Локальные успехи имеют место быть, полученные результаты демонстрируют очевидный прогресс, но цельная картина выглядит не очень убедительно, подозрительно напоминая ситуацию, сложившуюся в области создания искусственного интеллекта. Вот только как бы эта схожесть не обернулась идентичностью. Системы управления сложными технологическими процессами давно стали реальностью, пылесосы следят за состоянием пылесборников, а холодильники выходят в Интернет, но приблизились ли мы к созданию самого A.I. (Artificial Intelligence), сказать по-прежнему трудно. Более того, уже исчезла былая однозначность в ответе на вопрос, достижима ли эта цель в принципе. По аналогии можно предположить, что и речевые технологии рано или поздно получат массовое распространение. Вербальные телефонные сервисы нам гарантированы — это точно, холодильники и СВЧ-печки обязательно будут реагировать на голос домохозяйки, но создание универсального механизма распознавания/синтеза речи явно откладывается на отдаленную перспективу. Оно и к лучшему, определенно. Компьютер, с выражением озвучивающий экранный текст, явно претендует на должность агента Смита из отдела безопасности Matrix Inc. Нам это надо?

Олег Щербина, http://atom.by
По материалам IBM Corp., Microsoft Corp., ScanSoft, Inc., The Register



Компьютерная газета. Статья была опубликована в номере 46 за 2003 год в рубрике soft :: текст

©1997-2024 Компьютерная газета