Loquendo es una multinacional informática Software Technology Corporation, con sede en Turín, Italia, que ofrece reconocimiento de voz, síntesis de voz, altavoz y verificación de las solicitudes de identificación. [1] Loquendo, que fue fundada en 2001 en el Laboratorio de Telecom Italia, también cuenta con oficinas en Reino Unido, España, Alemania, Francia y Estados Unidos. [2]
Los productos actuales de negocios se pueden encontrar en portátiles y en dispositivos de navegación de automóviles, dispositivos de asistencia para personas con diferentes capacidades, teléfonos inteligentes, lectores de libros electrónicos, cajeros automáticos parlantes, juegos de ordenador, controlados por voz y otros electrodomésticos. La síntesis de voz y sistemas de reconocimiento de voz se utiliza en un nuevo mensaje de la salud como parte de la aplicación de asistente de Junta de Andalucia de España Gobierno de Servicios de Salud es virtual. [3]
Productos de Loquendo han sido el recipiente de varios premios, incluyendo ser un líder de tecnologías de voz de voz del motor en 2007, 2008 y 2009 [4] fue calificado como "líder del mercado" por tecnologías de voz en 2009 y 2010. [5]
El 30 de septiembre de 2011, de Nuance (uno de los principales competidores de Loquendo) anunció que había adquirido de Loquendo. [6]
Historia
Loquendo fue originalmente un grupo de investigación creado en mediados de los setenta por los administradores en el IRI-STET en el que: laboratorios CSELT en Turín, ya prestigiosa a nivel internacional, antes de convertirse en una empresa en su propio derecho en 2001
La síntesis de voz
45 rpm registro con "Frère Jacques", cantada por MUSA en 1978Basándose en las recomendaciones de la Universidad de Padua, mediante la aplicación de la técnica de los llamados difonos (la unión de una consonante y una vocal, 150 en total para el italiano), el grupo creó el sintetizador de voz por primera vez con alta inteligibilidad en 1975 [7 ] fue llamado MUSA (multicanal habla Autómata), lo que demuestra lo que era posible con la tecnología de la época. Los resultados obtenidos en esos años se condensa en un disco de audio a 45 rpm, con miles de ejemplares producidos y se extendió a través de los medios masivos de comunicación. Fue sobre todo la versión italiana de la canción Frère Jacques llevó a cabo en la polifonía de voces cantando más (MUSA podría manejar hasta 8 canales de síntesis en paralelo).
La evolución de este prototipo, con el aumento en el número de difonos (alrededor de 1000), el refinamiento de las herramientas de análisis lingüístico y una mejor gestión de forma de onda dado lugar a una notable mejora de la voz sintética. Esto llevó a la creación de la "sintetizador de voz" circuito integrado desarrollado internamente en CSELT que se añadió a la SGS (catálogo como algo marginal, Zilog Z80 de microprocesador (con el código M8950).
En la década de los noventa "ELOQUENS" nació, un sintetizador de varios platformspeech para varios sistemas operativos, incluyendo DOS, Windows, System 7, Unix, OS / 2) y las juntas de teléfono con un gran número de canales, tales como los utilizados por la telefónica italiana operador para construir la téléphoner inversa servicio de información de los suscriptores (utilizado para obtener la identidad del suscriptor y la dirección de su número de teléfono). [8]
Hacia el final de la década de 1990 llevó a la síntesis de voz en un nuevo enfoque, en lugar de pasar difonos que usaría la selección y concatenación de unidades acústicas de longitud variable, y el enfoque posible gracias a la mayor potencia de los ordenadores y especialmente el aumento de la capacidad de la masa Los sistemas de almacenamiento. Esto dio lugar a "actor" - "La voz humana que suena" - que comenzó a tener una gran audiencia debido a la cantidad de los servicios telefónicos y aplicaciones creadas por las empresas relacionadas con Loquendo.
En los dos miles el sintetizador fue liberado de los laboratorios de investigación como un producto comercial, incluyendo una serie de herramientas de edición para producir audio sintético enriquecido con las emociones y que también fue lanzado como una biblioteca de SW para su uso en diversos productos, desde pequeños dispositivos portátiles tales como teléfonos móviles, navegadores y ordenadores de palma, a los servidores de telefonía multicanal / multilingüe de (semi) centros de llamadas automáticas.
El reconocimiento de voz
Poco después del inicio de la investigación en la síntesis de voz, que comenzó la investigación sobre el reconocimiento de voz y al principio de los años ochenta produjo un primer prototipo, capaz de reconocer los diez dígitos y unos pocos comandos sencillos.
La aplicación de los modelos ocultos de Markov en 1984 condujo al desarrollo de un reconocedor de voz que podría reconocer palabras y frases conectadas, creadas en colaboración con Elsag, otra empresa del grupo IRI-STET.
La necesidad de producir independientes reconocedor de voz de teléfono aplicaciones de leds para la creación de bases de datos de voz con las voces grabadas de cientos de diferentes personas y en 1987 el primer gran base de datos, obtenidos a través de la grabación de las voces de más de 1000 personas que llaman desde todas partes de Italia con un procedimiento automático, se utilizó en la creación de un servidor de teléfono especialmente diseñado en los laboratorios de CSELT.
Este material Guardadas permitido la formación de los modelos de Markov, y, y, mediante el uso de sofisticados algoritmos han llevado al desarrollo de "AURIS", el reconocedor primer comercial que podría "dar vuelta" en una variedad de dispositivos con DSP - Digital Signal Processor.
En la década de los noventa una gran cruzada europea comenzó la colaboración y, junto con una docena de empresas y universidades de toda Europa se han recogido una base de datos de expresión muy grande en toda Europa, con las voces de más de 65.000 personas. [9]
Este material, combinado con un nuevo enfoque mixto de modelos ocultos de Markov y redes neuronales llevado a "FLEXUS" el primer discurso de vocabulario flexible, reconocedor, lo que permitió a muchos servicios telefónicos a utilizar variadas reconocimiento automático del habla en sus interfaces humanas.
La fusión de "FLEXUS" y "actor" en un sistema único creado "Diálogos", lo que permite la creación de servicios de telefonía de última generación.
El nacimiento de Loquendo como una empresa dirigida al desarrollo de muchos idiomas y la publicación del reconocedor en la forma de la biblioteca de software para la creación de aplicaciones de telefonía diferentes.
También introdujeron varios sistemas para escribir el estado finitos y gramáticas naturales sistemas lingüísticos modelos.
Las bases de datos de grabación de voz campañas siguen habiendo pasado de Europa a los países del Mediterráneo, al Sur, Centro y América del Norte y, por último a los países del Lejano Oriente. En general incontables horas de discurso se han registrado en contacto con cientos de miles de personas en las regiones mencionadas. Las grabaciones se han recogido tanto para redes de telefonía fija, así como en vehículos en movimiento para teléfonos móviles y también está usando micrófonos de alta calidad en entornos domésticos para aplicaciones de consumo como los videojuegos, electrodomésticos y domótica en general.
de reconocimiento de locutor
Las actividades de investigación en reconocimiento de locutor se inició hace muy poco, en medio de dos miles, cuando se habla de bases de datos adaptados para esta tarea llegó a estar disponible. En colaboración con el Politécnico de Turín, que comenzó los experimentos en dos frentes diferentes: los altavoces "identificación" y "verificación".
El éxito de la investigación también ha empujado a la compañía para mover al desarrollo de productos específicos para estas tareas a través de las plataformas que permiten que se describen a continuación.
Discurso de codificación
Las actividades de investigación en habla codificación comenzó incluso antes de que los de reconocimiento de voz y síntesis, con el fin de construir equipos tales como CODEC y cancelador de eco para poder aumentar tanto como sea posible el número de conversaciones telefónicas que puede fluir a través de un único cable (o satélite conexión) sin perder inteligibilidad de la voz.
En los años setenta, los estudios y experimentos llevaron a la creación de algoritmos para codificar la señal de voz telefónica y puesta en marcha-el CCITT normativa europea conocida como codificación de una ley-(8-bit de la ley de codificación logaritmo "A" para la banda de la señal de audio 8 kHz limitada). Esta norma fue utilizada en el CODEC de 64 kbit / s líneas telefónicas RDSI.
En los años siguientes se construyeron más fuertes (los codecs utilizados exchangess teléfono) y, dentro de la red GSM PAN-Europa del consorcio, el códec a usar en los teléfonos móviles de segunda generación.
Al mismo tiempo se construyó un CODEC para transmitir señales de alta calidad a pesar del límite de 8 kHz banda de los cables telefónicos, que era útil para aplicaciones de conferencia de audio y video.
Activación de las plataformas
En los últimos años noventa el desarrollo de Internet en la forma conocida en la actualidad (residente en los servidores de hipertexto diferentes que abarcan todo el planeta en una gran red) llevó a la necesidad de que estos textos disponibles en la voz por teléfono.
En la IVR mismo tiempo - los sistemas se vuelven cada vez más y más generalizada y se convirtió en lo esencial de HW y SW de herramientas de desarrollo rápido de aplicaciones de telefonía y servicios nuevos. Es evidente para todos que que llevó a la consecución de sistemas complejos como nosotros la automatización de la Libreta de teléfonos "o el Servicio de Información de trenes son demasiado rígidos y no permiten el fácil desarrollo de nuevas aplicaciones.
Al mismo tiempo, el IVR - Interactive Voice Response, se convirtió cada vez más popular y utilizado herramientas de hardware y software para desarrollar rápidamente nuevas aplicaciones de telefonía. Se hizo evidente que los modelos de desarrollo anteriores que condujeron al desarrollo de sistemas complejos tales como la automatización de los servicios de abonados o automáticas Estaciones de Servicio de información eran demasiado rígidos y no permiten fácilmente el desarrollo de nuevas aplicaciones.
Se consideró por tanto que era necesario para permitir a las plataformas para los sistemas automáticos de voz de teléfono que son a la vez escalable y fácilmente programables. Con este fin se creó un grupo especial de trabajo para desarrollar un prototipo de navegador de voz, para ser mostrado al público en SMAU 2000 [10], con el nombre "VoxNauta". Fue tal el éxito que Telecom Italia decidió cerrar sus laboratorios de investigación originales y crear Loquendo el 1 de febrero de 2001.
Con los años "VoxNauta" fue desarrollado en diversas formas escalables: desde pequeños servidores a sistemas de grandes empresas con miles de líneas y se ha instalado en cientos de compañías alrededor del mundo.
El nacimiento de las normas para escribir los servicios de telefonía para conectar el servidor de alojamiento de las tecnologías del habla a los servidores que albergan los tableros telefónicos impulsa el desarrollo de SW en solitario,.
La aparición de normas en la escritura de los servicios de telefonía (VoiceXML) y protocolos (CPRM) para la conexión de servidores que alojan las tecnologías de voz a los servidores que albergan los tableros telefónicos llevó a la creación de software Speech Server, hosting de texto a voz y reconocedor de voz- motores de Loquendo
Esta continua investigación y desarrollo ha llevado a Loquendo ser una de las marcas más conocidas en el campo de la síntesis y reconocimiento de voz.
La marca
No hay una explicación definitiva sobre el origen del nombre de Loquendo, mientras que el logo fue creado por el departamento gráfico de Telecom Italia. Cuando se visualiza como un gif animado de los tres ondas por encima de la "O" se encienden en secuencia, dando la sensación de la emisión de sonido.
La marca no ha sido protegida por la empresa, hay otras empresas italianas, cuyo nombre deriva directamente de Loquendo, y esto ha contribuido a su uso generalizado, incluso a expensas de las marcas competidoras.
La venta de la empresa
Con los años ha habido rumores de la venta de Loquendo a otras empresas. [11]
La más reciente fue en el verano de 2011, cuando se anunció que dos empresas multinacionales de EEUU se basan, los matices y Avaya, estaban estudiando la posibilidad de una toma.
Como Nuance era un competidor directo de la empresa italiana había cierta preocupación por los trabajadores de Loquendo que estaban preocupados por el desmembramiento de la posible investigación y desarrollo y la desaparición de la de Italia de una marca excelente, con cuarenta años de experiencia. [12]
Una compra por parte de Avaya parecía más conveniente ya que sus actividades son complementarias a la actividad llevada a cabo por Loquendo, Avaya, de hecho, no era dueño de una tecnología del habla y por lo tanto, podría haber estado muy interesado en la posibilidad de desarrollo interno en lugar de comprarlos desde el exterior las empresas. [13]
Estos informes fueron seguidos con gran interés por los trabajadores, las autoridades locales en Turín y el Piamonte y toda la comunidad científica internacional. [14] [15] [16]
El 13 de agosto de 2011, Telecom Italia anunció públicamente la venta de su participación en la totalidad de Loquendo de Nuance por 53 millones de euros [17] [18] [19]
No hay comentarios:
Publicar un comentario