Язык тегов речевых приложений SALT
Речь — это основное средство общения. Гораздо проще говорить, чем вводить информацию с помощью клавиатуры и мыши. Кроме того, иногда предпочтительней о чем-то услышать, а не прочитать. Поэтому исследовательское подразделение корпорации Intel Intel Research & Development разрабатывает технологии распознавания речи, задача которых — сделать Интернет более доступным для людей всего мира.
Одна из таких перспективных технологий — язык Speech Application Language Tags (SALT), позволяющий использовать речь для навигации по Интернету и взаимодействия со всемирной сетью посредством телефонов и многомодальных устройств, таких как ПК, мобильные ПК, планшет, сотовый телефон и беспроводной карманный компьютер.
SALT позволит:
- конечному пользователю — одновременно работать с речью, текстом и графикой;
- разработчику — использовать теги SALT с помощью привычных редакторов и утилит в уже существующих или только создаваемых HTML-, xHTML- и XML-страницах;
- е-бизнесу — без создания специальных приложений и технологий получить унифицированный метод добавления голосовых возможностей в самые разные Интернет-сервисы, что уменьшит стоимость их разработки и сопровождения.
Для использования SALT-технологии совсем необязательно разбираться в тонкостях распознавания или синтеза речи. Язык построен на основе модели событий, что позволяет запрограммировать различного уровня сложности диалоги с пользователем.
Допустим, вы создаете сайт авиакомпании. С помощью SALT можно сделать так, что при щелчке мышкой по картинке самолета клиент, произнеся вслух название нужного ему города и дату вылета, в ответ получит выведенный на экран монитора список подходящих рейсов.
о полном взаимопонимании
На ежегодном конкурсе “общительных” компьютерных программ, проходившем в последний раз в лондонском Музее науки, второй раз подряд одержала победу система Alice разработчика Ричарда Уоллеса (Richard Wallace). Это довольно необычное состязание с медалью и денежной премией для победителя носит название “Конкурс на приз Лебнера”, и по ходу его программы должны продемонстрировать способности к поддержанию диалога, максимально похожего на разговор живого человека. Учредил данный конкурс в 1990 году американский филантроп Хью Лебнер, по сию пору лично участвующий в работе жюри.
По сути дела, в ходе этого конкурса программы проходят неформальную проверку на знаменитый “тест Тьюринга”, предложенный более полувека назад в качестве критерия оценки искусственного интеллекта, основан на анализе беседы с машиной, то есть проверяющий должен определить, разговаривает он с живым человеком или же с компьютером.
Хотя проблема управления компьютером с помощью голосовых команд пока далека от окончательного решения, здесь уже достигнуты определенные успехи. Ряд ведущих hi-tech-компаний рассчитывает в обозримом будущем почти полностью убрать кнопки с сотовых телефонов и карманных компьютеров, так как управлять такими компактными устройствами значительно удобнее с помощью речевых команд.
В частности недавно компании Intel, Microsoft, Cisco, Comverse, Philips и SpeechWorks основали консорциум SALT Forum (от Speech Application Language Tags) для создания ПО, которое позволило бы управлять интернет-серфингом с помощью одних лишь голосовых команд. В отличие от многих разработок, привлекающих для голосовой веб-навигации язык XML или закрытое фирменное ПО, участники SALT опираются на старый-добрый HTML.
Уже создана программа-прототип, привязывающая речевые команды к гиперссылкам веб-страниц. Пока что она работает не так гладко, как хотелось бы, зачастую компьютер понимает пользователя лишь со второго-третьего раза, однако ряд экспертов, тестировавших экспериментальное ПО, полагает, что первые сотовые телефоны с голосовым управлением могут появиться на рынке уже в следующем году /* имеется в виду, по всей видимости, полностью голосовое управление, поскольку элементы оного реализованы еще в достаточно старых моделях телефонов — прим. ред. */.
salt forum
Форум SALT Forum, основанный в 2001 г. компаниями Cisco, Comverse, Intel, Microsoft, Philips и SpeechWorks, объединяет 57 участников, которые создали открытый, бесплатный, независимый от платформ стандарт для ускорения использования речи в многомодальных и телефонных приложениях.
В июле 2002 года Форум представил спецификацию SALT. Сейчас она обсуждается и, вероятно, к концу года будет утверждена международным комитетом по стандартизации.
консорциум W3C
Консорциум W3C, точнее, его рабочая группа W3C Voice Browser, созданная в 1998 г., занимается подготовкой документов, объединенных в набор W3C Speech Interface Framework и унифицирующих использование речевых технологий в Web. Их задачей является расширение методов доступа и навигации в Web путем использования клавиатуры сотовых и проводных телефонов, распознавания и синтеза естественной речи человека и пр. Для этого предлагается целый ряд спецификаций: диалогового языка разметки VoiceXML 2.0, синтеза речи (Speech Synthesis), распознавания речи (Speech Recognition), грамматики DTMF (DTMF Grammars), речевой грамматики (Speech Grammars), вероятностной модели языков (Stochastic Language Models) и др. Среди них самое динамичное развитие получили язык VoiceXML 2.0 и первая версия спецификации грамматики по распознаванию речи (Speech Recognition Grammar Specification 1.0), которые находятся на этапе окончательной стандартизации.
Что же касается многомодальных систем, то и эта тема не обойдена W3C стороной. В феврале 2002 года была организована рабочая группа Multimodal Interaction Activity. Ее задача — создание спецификаций, предоставляющих возможность многомодального доступа и навигации в Web, с одинаковым успехом сочетающего использование как традиционных устройств ввода-вывода (клавиатура, монитор), так и естественной речи человека, "рисующего пера" — стилусов и других нетрадиционных способов. Новые формы ввода-вывода приобретают всю большую популярность в связи с быстрым ростом пользователей сотовых телефонов, карманных компьютеров, автомобильных навигационных систем и телевизионных приставок, в которых невозможно использование полноценных клавиатур и цветных экранов с высоким разрешением.
Таким образом, получается, что решаемые новой рабочей группой W3C задачи практически полностью совпадают с целями SALT Forum. Сразу встает вопрос: не имеем ли мы еще один раскол, но теперь уже в сфере многомодальных систем, ведь, с одной стороны, есть спецификация SALT и 50 компаний ее поддерживающих, а с другой — международная организация по стандартизации Web W3C.
Видимо, никакого раскола нет и проблема лежит в несколько другой плоскости. Разворачивающиеся события вокруг SALT Forum очень напоминают историю появления диалогового языка VoiceXML, первая версия которого была создана в рамках организации VoiceXML Forum, а потом он был передан для дальнейшего развития и стандартизации в W3C. Правдоподобность этой версии подтверждается тем, что в списке компаний — участниц новой рабочей группы по многомодальным системам — числится более половины организаторов SALT Forum: Microsoft, Intel, Comverse, SpeechWorks. Помимо них туда также входят IBM и Motorola, которые как раз выступают в лагере VoiceXML.
Ни для кого не секрет, что создание спецификаций W3C занимает достаточно продолжительное время, поэтому вряд ли стоит ожидать в ближайшее время появления международного стандарта по многомодальным системам. Тем временем рынок во главе с Microsoft сделал свой выбор и выпустил спецификацию SALT, и, наверное, в ближайший год или даже два именно она будет играть доминирующую роль в этой сфере.
В то время как Гейтс выступал перед участниками конференции PDC и представлял предварительный вариант спецификаций Microsoft, консорциум W3C официально утвердил Voice XML в качестве стандартной технологии распознавания речи для приложений Web, функционирующих в телефонных сетях.
Отныне спецификациями VXML, предложенными в свое время ассоциацией VXML Forum, будет заниматься W3C. Консорциум W3C уже представил черновой вариант VXML Version 2.
технические аспекты
SALT не является новым языком, а служит для расширения таких языков, как HTML, XHTML и XML за счет введения дополнительных тегов и добавления в них поддержки голосовых сервисов. С внедрением SALT пользователь вместе с традиционным графическим интерфейсом получает речевой способ взаимодействия с веб-порталами. Используя обычный компьютер, КПК, сотовый или проводной телефон, он может голосом запрашивать необходимую информацию, которая будет представлена ему в виде синтезированной речи.
С точки же зрения программиста, для работы с SALT совсем необязательно разбираться в тонкостях распознавания или синтеза речи. Язык построен на основе модели событий, что позволяет запрограммировать различного уровня сложности диалоги с пользователем. Вставлять теги SALT в уже существующие или только создаваемые HTML-, XHTML- и XML-страницы можно с помощью привычных редакторов и утилит.
Первая версия спецификации SALT затрагивает три возможности многомодальных систем: телефонный доступ, синтез и распознавание речи.
В первой версии спецификации выделяются три основных тэга.
<listen …>— конфигурирует распознаватель голоса, распознает звуки, речь;
<prompt …>— конфигурирует речевой синтезатор, выводит звуки;
<dtmf …>— конфигурирует и контролирует DTFM в телефонных приложениях.
Тэги listen и dtmf могут содержать тэги <grammar>и <bind>, listen может также содержать тэг <record>.
SALT также показывает способы конфигурирования и обеспечения контроля за телефонными звонками при помощи речи и разметки.
<listen>используется для ввода речи (например для навязывания "речевых" ссылок объектов).Он содержит <grammar>, <record>и <bind>. Он также содержит методы активации-деактивации, начала и прекращения распознавания речи.
Приведем простой пример использования этого тэга:
<salt:listen id="travel">
<salt:grammar src="./city.xml" />
<salt:bind targetElement="txtBoxOriginCity"
value="/result/origin_city" />
</salt:listen>
<prompt>используется для определения выхода. Он может содержать обычный текст, речевую исходящую разметку, переменные значения, ссылку на аудиофайлы и любую их комбинацию.
Пример:
<salt:prompt id="ConfirmTravel">
So you want to travel from
<salt:value targetElement="txtBoxOriginCity" targetAttribute="value" />
to
<salt:value targetElement="txtBoxDestCity" targetAttribute="value" />
?
</salt:prompt>
<dtmf>используется в телефонных приложениях для спецификации DTMF и для связи нажатия клавиши на клавиатуре с вводом и других событий. Как и <listen>, его основные элементы — <grammar>и <bind>
Пример:
<salt:dtmf id="dmtfPhoneNumber">
<salt:grammar src="7digits.gram" />
<salt:bind value="/result/phoneNumber" targetElement="iptPhoneNumber" />
</salt:dtmf>
Как было упомянуто ранее, тэги в SALT — XML-объекты в документной объектной модели (ДОМ) страницы. Поэтому каждый SALT-тэг содержит методы, свойства и хранители событий, которые доступны скрипту и из-за этого могут взаимодействовать с другими событиями и процессами при выполнении (загрузке) веб-страницы. Это позволяет речевому интерфейсу SALTа быть полностью интегрированным в веб-приложения.
Для телефонных диалогов SALT поддерживает механизмы контроля вызова для управления телефонными подключениями, включающие:
- прослушивание, принятие и отклонение входящих звонков;
- переадресация вызова;
- разъединение перевод звонков;
- конференц-связь.
конкуренция
На рынке речевых технологий — новые потрясения. Только-только началась широкая разработка приложений распознавания речи на базе VoiceXML, как появляется потенциально конкурирующий стандарт, поддерживаемый корпорацией Microsoft.
С тех пор как World Wide Web Consortium примерно пару лет назад утвердил стандарт VoiceXML 1.0, он используется разработчиками для интеграции речевых технологий в разнообразные приложения, включая ПО управления взаимодействием с клиентами.
Однако интерес к многомодальным приложениям, сочетающим распознавание речи с другими формами ввода информации (при помощи клавиатуры, пера или набора цифровых кнопок) побудил ряд компаний, в том числе Microsoft, поддержать проект SALT Forum (Speech Application Language Tags — теги языка речевых приложений). И теперь вокруг SALT и VoiceXML консорциума W3С формируются два разных лагеря.
По одну сторону находится группа во главе с IBM, Motorola и Opera Software, представившая в органы стандартизации W3C предложение объединить VoiceXML с XHTML (eXtensible HTML — расширяемый HTML). Она призывает разработчиков создавать многомодальные приложения, размечая одну и ту же страницу посредством VoiceXML для речи и XHTML для текста и графики.
Данное предложение закладывает фундамент для эффективного объединения протоколов, и, по-видимому, W3C скоро сформирует рабочую группу для обсуждения этого проекта.
По другую сторону находятся приверженцы SALT: Microsoft, Cisco Systems, Comverse, Intel, Philips Electronics и SpeechWorks International.
"С позиций пользователей технологии мы считаем, что лучший вариант, — открытые стандарты. И, похоже, VoiceXML и XHTML развиваются в этом направлении", — сказал Джоан Мэдден, менеджер проекта из United Parcel Service of America (Махуа, шт. Нью-Джерси).
UPS использует ПО распознавания речи, разработанное фирмой Nuance Communications. Эта технология позволяет компании обрабатывать до 80% клиентских заявок, не прибегая к прямым контактам между клиентами и операторами.
Мнение специалистов UPS разделяют и в других организациях. "Нам выгодно утверждение стандарта, — заявил Рой Пробус, аналитик корпорации WebMD (Нэшвил, шт. Теннеси). — Тогда мы сможем свободно менять поставщиков технологий, зная, что это не потребует переработки системы".
WebMD использует технологию распознавания речи корпорации Edify для автоматизации обслуживания клиентов в центре обработки телефонных вызовов. Сегодня клиент отдает голосовую команду и система переключает линию на соответствующего оператора. В будущем же WebMD планирует построить полностью автоматизированную систему, умеющую отвечать на вопросы при помощи базы знаний.
Edify (Санта-Клара, шт. Калифорния) относится к числу 18 компаний, разрабатывающих речевые приложения и недавно заявивших о поддержке SALT Forum. Однако она, как и многие другие фирмы, пристально следит за тем, что происходит в лагере VoiceXML.
"Принцип или-или здесь не уместен, — отметил технологический руководитель Edify Кен Уолн. — Мы считаем SALT более перспективным вариантом, чем VoiceXML, но если приживутся оба стандарта, то оба и будем поддерживать". По словам Уолна, эти стандарты пытаются решить одну и ту же проблему: органично задействовать голосовые функции при минимальных усилиях по доучиванию разработчиков. Стандарт, за который ратуют IBM, Motorola и Opera, объединяет на одной странице разметку VoiceXML и XHTML. А SALT предполагает добавление к существующим языкам Web-разметки — HTML и XML — специальных речевых тегов.
"VoiceXML ближе к речевому миру; SALT ближе к миру многомодальных приложений, — считает Уолн. — Но оба подхода имеют одну цель — интеграцию Web и голоса, и они со временем сблизятся и превратятся в один стандарт".
Даже компания SpeechWorks (Бостон) — разработчик ПО распознавания речи и один из учредителей SALT Forum — поддерживает в речевых системах VoiceXML.
"Если мыслить философски, то оба стандарта двигаются в одном направлении", — сказал Роб Кассел, менеджер SpeechWorks по продуктам для новых технологий. По его информации, SpeechWorks переключилась на поддержку SALT, будучи не удовлетворена ранними попытками скомбинировать VoiceXML с HTML для многомодальных приложений. Однако он еще не пришел к окончательному мнению относительно нынешнего предложения в W3C по объединению VoiceXML и XHTML.
Хотя VXML и SALT проектировались для двух различных платформ, конкуренция между ними неизбежна. Microsoft заранее обвиняют в том, что SALT помешает дальнейшему развитию технологического направления, которое и так встречает на своем пути много препятствий.
"С появлением SALT мы получаем еще одну концепцию решения определенных задач, — отметил начальник подразделения голосовых систем IBM и член VXML Forum Найджел Бек. — Нам же требуется единый унифицированный подход".
Директор подразделения мультимедийных (телефонных) серверов Intel и член SALT Forum Глен Шайрс полагает, что оба языка имеют свои сильные стороны. VXML лучше подходит для телефонии, а SALT — для мультимодальных устройств. Однако на вопрос о том, придется ли разработчикам изучать две различные среды для создания полнофункционального голосового приложения, он ответил: "Все, что вам необходимо, можно сделать при помощи SALT".
Эту точку зрения разделяет и сотрудник подразделения Microsoft .NET Speech Technologies Джеймс Мастан. Он отмечает, что спецификации VXML создавались для служб на базе IVR. Поэтому неизвестно, подойдет ли VXML для карманных устройств.
"Технически очень сложно обеспечить поддержку мультимодального оборудования, отталкиваясь от функций обработки голосовой информации (VXML), — подчеркнул Мастан. — Гораздо проще взять уже существующий язык разметки HTML и добавить туда несколько несложных элементов".
Найджел Бек тем не менее полагает, что консорциуму W3C удастся создать мультимодальные расширения VXLM.
На начальном этапе авторы стратегии, построенной на основе инициативы VXML, отталкивались от того простого факта, что по темпам развития отрасль сотовых телефонов значительно опережает все остальные сегменты беспроводного рынка. Таким образом, задача VXML заключается в том, чтобы обеспечить доступ Web-служб к этому высокоприбыльному каналу сбыта. Но что если сторонники SALT также замахнутся на этот высокодоходный рынок?
"На самом деле окончательный выбор компаний, специализирующихся на высоких технологиях, будет определяться наличием реальных предложений, — заметил президент компании TMA Associates Билл Мейсел. — Поскольку рынок компактных устройств продолжает развиваться, корпорация Microsoft может позволить себе подождать три-четыре года, пока SALT не выйдет на более высокий качественный уровень. Но для большинства тех, кто занят в телефонном бизнесе, подобный подход неприемлем".
"SALT Forum планирует представить свой стандарт в международный орган стандартизации. Если это будет W3C, то часть вопросов, наверное, найдет решение", — надеется Кассел.
По словам Дейва Раггетта, члена консорциума W3C и его главного эксперта по речевым и многомодальным приложениям, он убежден, что если SALT Forum представит предложения в W3C, то любые расхождения между SALT и спецификацией VoiceXML/XHTML удастся уладить.
"Вокруг этого вопроса поднялось много шума, но все это, по существу, только политика", — заверил Раггетт, помогавший в проведении разгоревшихся в 1995 г. дебатов по стандартам между Microsoft и Netscape Communications и в итоге приведших к утверждению универсальных норм HTML.
"Этим компаниям надо спросить самих себя, хотят ли они иметь четкие стандарты или нет? — продолжает Раггетт, ныне старший архитектор фирмы Openwave Systems (Гертс, Великобритания). — Все же думаю, что они в этом заинтересованы, и тогда W3C — самое подходящее место для такой работы".
Однако этот оптимизм разделяют не все.
"W3C можно было бы взять полезные элементы обоих подходов, и тогда появится перспектива движения вперед на основе общего стандарта", — сказал Мэтт Коллан, директор по корпоративному маркетингу фирмы Nuance (Менло-Парк, шт. Калифорния). Nuance решила поддерживать группу VoiceXML/ XHTML. По словам Коллана, у SALT, возможно, есть достоинства в плане технологии, но группа во главе с IBM выбрала более правильный подход, сразу обратившись в W3C. "Именно там надо решать подобные вопросы, а SALT Forum — это не тот путь", — заявил он.
С ним согласен Фрэн Рабук, руководитель по практическим решениям группы мобильных систем фирмы Alliance Consulting (Филадельфия): "Я бы предпочел то, что исходит от W3C, поскольку так уж исторически сложилось, что это нейтральная территория. Мы меньше всего заинтересованы в новой войне стандартов".
К тому же большинство организаций считают технологию многомодальных приложений далекой от зрелости, над ней еще много придется поработать, тогда как технология распознавания речи уже достигла совершеннолетия.
Архитектура приложений VoiceXML
"Самое скверное, что споры вокруг многомодальных стандартов создают неразбериху на рынке VoiceXML, — отметил Рабук. — У голосовых технологий сегодня имеются вполне реальные возможности, и это позволяет создавать системы, где в многомодальных функциях пока нет нужды".
Берн Эллиот, аналитик фирмы Gartner (Стамфорд, шт. Коннектикут), уверен, что многомодальные приложения выйдут на широкую дорогу лишь через пару лет и поэтому инициатива SALT понапрасну отвлекает внимание некоторых организаций, заинтересованных в безотлагательном развертывании речевых приложений. По его мнению, позиция SALT Forum является контрпродуктивной.
"В нынешних условиях предложение SALT вряд ли поможет корпоративным пользователям внедрять речевые технологии, — сказал Эллиот. — Оно может замедлить прогресс. Как правило, ранние этапы разработки стандартов протекают в тиши кабинетов, без большой огласки. А мы являемся свидетелями политизации чисто технического исследования. Самый конструктивный вариант — если бы группы SALT и XML начали совместную продуктивную работу в рамках W3C".
Однако нынешние речи светил из IBM и Microsoft не оставляют сомнений в том, что склока лишь усиливается.
"На рынке вполне достаточно места для сосуществования многих стандартов, — заявляет Джемс Мастон, менеджер по продуктам из группы речевых технологий для .Net корпорации Microsoft (Редмонд, шт. Вашингтон). — VoiceXML сыграл важную роль в своей изначальной области применения — телефонии, а нашей конечной целью являются будущие интересы пользователей".
SALT, по словам Мастона, сможет превратить шесть миллионов нынешних веб-разработчиков в создателей приложений с речевыми функциями, так как этот проект построен на уже известных им технологиях Web-разработок. И он справится с этим гораздо быстрее, чем VoiceXML вкупе с XHTML.
Как сказал Мастон, SALT является одной из частей стратегии Microsoft, стимулирующей внедрение технологий "говорящего" Интернета. Другая часть — создание платформы для развертывания таких технологий на базе .Net.
В лагере же IBM гневно заявляют, что все это — нечестная игра и Microsoft лишь хочет заиметь еще одну монопольную платформу. "По-моему, вопрос достаточно ясен, об этом свидетельствует вся их история," — сказал Уильям Осборн, главный управляющий группы IBM Voice Systems (Бока-Рейтон, шт. Флорида).
По словам Осборна, IBM поддерживает не новый стандарт, а только комбинацию уже действующих стандартов — VoiceXML и XHTML. Поданный в W3C документ предлагает, как их лучше всего объединить. "Поскольку оба стандарта, VoiceXML и XHTML, все время совершенствуются, люди могут продолжать ими пользоваться, — заявил Осборн. — Новый стандарт нам не нужен. Добавляя голосовые теги, вы фактически расширяете синтаксис, а сегодня уже есть готовый стандарт для изменения синтаксиса. Тогда как SALT Forum хочет все это выбросить в мусорную корзину и начать заново".
Место SALT, считает Осборн, на столе для разработки многомодальных стандартов при условии, что его сторонники будут работать вместе с W3C. "Мы не хотим затевать дискуссию, кто лучше. Нам не нужны два стандарта и не надо, чтобы люди под них разрабатывали разные программы, — пояснил он. — Давайте все это направим в рабочую группу W3C по многомодальным приложениям и займемся созданием единого стандарта".
Реферат слушателя 4 курса ИКСИ, научный руководитель — Сергей Кунегин.
обсуждение статьи
Сетевые решения. Статья была опубликована в номере 03 за 2003 год в рубрике технологии