Konuşma Tanıma

menu icon

Konuşma Tanıma

Konuşma tanımanın tarihi ve günümüzde dünyadaki çeşitli uygulamaları hakkında bilgi edinin

Konuşma tanıma nedir?

Otomatik konuşma tanıma (ASR), bilgisayarlı konuşma tanıma veya konuşmadan metne dönüştürme olarak da bilinen konuşma tanıma, bir programın insan konuşmasını yazılı biçime dönüştürebilme yeteneğidir. Sıklıkla ses tanıma ile karıştırılmasının yanında konuşma tanıma, konuşmanın sesli biçimden metne çevrilmesine odaklanır. Diğer yandan ses tanıma yalnızca tek bir kullanıcının sesini tanılamayı amaçlar.

Kavramın ortaya çıktığı günden bugüne konuşma tanımada öncü bir rol oynayan IBM, 1962 yılında “Shoebox” makinesini piyasaya sürmüştür. 1950'lerde Bell Labs tarafından gerçekleştirilen ilk çalışmaları ileriye taşıyan bu makine, 16 farklı sözcüğü tanıma yeteneğine sahipti. IBM bununla kalmayıp yıllar içinde inovasyonlarını sürdürdü ve 1996'da VoiceType Simply Speaking uygulamasını başlattı. Bu konuşma tanıma yazılımı 42.000 sözcükten oluşan bir sözcük haznesi sahipti, İngilizce ve İspanyolca'yı destekliyordu ve 100.000 sözcükten oluşan bir imla sözlüğünü içeriyordu. Konuşma teknolojisi ilk günlerinde sınırlı bir sözcük haznesine sahipken bugün otomotiv, teknoloji ve sağlık gibi birçok sektörde kullanılıyor. Derin öğrenme ve büyük veri alanındaki gelişmeler sayesinde son yıllarda kullanımı hızla yayılmaya devam ediyor. Araştırmalar (bağlantı IBM dışındadır) bu pazarın 2025'e kadar 24,9 milyar $ değerine ulaşmasının beklendiğini gösteriyor.

Etkili konuşma tanımaya ilişkin temel özellikler

Pek çok konuşma tanıma uygulaması ve cihazı var, ancak daha gelişmiş çözümler yapay zeka ve makine öğrenmesini kullanıyor. Bu çözümler, insan konuşmasını anlamak ve işlemek için ses sinyallerinin dil bilgisi, söz dizimi, yapı ve kompozisyonunu bütünleştiriyor. İdeal şekilde, süreç içinde öğreniyor ve her etkileşimle yanıtları biraz daha geliştiriyorlar.

En iyi sistemler aynı zamanda kuruluşların, dil ve konuşma nüanslarından marka tanımaya kadar her gereksinime göre teknolojiyi özelleştirmelerine ve uyarlamalarına da olanak sağlıyor. Örneğin:

  • Dil ağırlıklandırma: Temel sözlükte halihazırda var olan terimlerin dışında, sıkça konuşulan (ürün adları veya sektör jargonu gibi) sözcüklere ağırlık vererek doğruluğu artırma.
  • Konuşmacı etiketleme: Birden çok katılımcının olduğu bir sohbette her konuşmacının katkılarını etiketleyen veya alıntılayan bir metin çıktısı oluşturma.
  • Akustik eğitim: İşin akustik tarafına katılma. Sistemi, akustik ortama (bir çağrı merkezindeki ortam sesi gibi) ve konuşmacı tarzlarına (seste vurgu, hız ve ses yüksekliği gibi) göre uyum sağlayacak şekilde eğitme.
  • Küfürlü konuşma filtreleme: Bazı sözcükleri veya sözcük gruplarını belirlemek ve konuşmayı sorunsuz hale getirmek için filtreler kullanma.

Bu arada konuşma tanıma gelişmeye devam ediyor. IBM gibi şirketler, insan ve makine etkileşimini iyileştirmek için bazı alanlarda ilerleme kaydediyorlar.

Konuşma tanıma algoritmaları

İnsan konuşmasının belirsiz ve öngörülemeyen yanları geliştirme sürecini zorlaştırıyor. Bu teknolojinin, bilgisayar biliminin dilbilim, matematik ve istatistiğin de dahil olduğu en karmaşık alanlarından biri olduğu düşünülüyor. Konuşma tanıyıcılar; metin girişi, özellik ayırma, özellik vektörleri, şifre çözücü ve sözcük çıkışı gibi birkaç bileşenden oluşuyor. Şifre çözücü, uygun çıkışı belirlemek için akustik modellerinden, bir telaffuz sözlüğü ve dil modellerinden yararlanıyor.

Konuşma tanıma teknolojisi, sözcük hata oranı olarak da ifade edilen doğruluk oranına ve hıza göre değerlendiriliyor. Telaffuz, aksan, ses perdesi, yüksekliği ve arka plan gürültüsü gibi birçok faktör sözcük hata oranını etkileyebiliyor. Konuşan iki insanınkine eş bir hata oranı anlamına gelen insan denkliğine ulaşmak, konuşma tanıma sistemlerinin uzun soluklu hedefi olmuştur. Lippmann'ın araştırmasında (bağlantı IBM dışındadır) (PDF, 344 KB) sözcük hata oranının yaklaşık %4 olduğu tahmin edilir, ancak bu belgedeki sonuçların tekrarlanması zor olmuştur.

Devamını okuyun ve IBM'in bu bağlamda büyük aşama kaydederek konuşma tanıma alanında sektörde nasıl rekor kırdığını öğrenin.

Konuşmanın metne dönüştürülmesi ve konuşma metni doğruluğunun artırılması için çeşitli algoritmalar ve hesaplama teknikleri kullanılıyor. En yaygın kullanılan yöntemlerin bazılarına ilişkin kısa açıklamaları aşağıda bulabilirsiniz:

  • Doğal dil işleme (NLP): NLP, özel olarak konuşma tanımada kullanılan bir algoritma değildir, konuşma ve metin araçlarıyla, dil aracılığıyla insanlar ve makineler arasındaki etkileşime odaklanan bir yapay zeka alanıdır. Birçok mobil cihaz, sesli arama yapmak için sistemlerine konuşma tanımayı dahil eder (örneğin, Siri) ya da mesajlaşma çerçevesinde daha fazla erişilebilirlik sağlar.
  • Gizli markov modelleri (HMM): Gizli Markov Modelleri, bir durum olasılığının önceki durumlara değil, mevcut duruma bağlı olduğunu öngören Markov zinciri modelini esas alır. Markov zinciri modeli metin girişleri gibi gözlemlenebilir olaylar için yararlı olurken gizli markov modelleri, sözcük türü etiketleri gibi gizli olayları bir olasılık modeline dahil etmemizi sağlar. Bunlar konuşma tanıma içindeki sıralı modeller olarak kullanılır ve sıradaki her birime (sözcükler, heceler, cümleler gibi) etiketler atar. Bu etiketler, sağlanan girişle bir eşleme yaratarak en uygun etiket sırasının belirlenmesini sağlar.
  • N-gram: Cümlelere veya sözcük gruplarına olasılıklar atayan, en basit dil modeli (LM) türüdür. N-gram, bir N-sözcük sırasıdır. Örneğin, "pizza siparişi ver" bir trigram veya 3-gram iken "lütfen pizza siparişi verin" 4-gram'dır. Bazı sözcük sıralarının olasılığı ve dil bilgisi, tanıma ve doğruluğu artırmak için kullanılır.
  • Nöral ağlar: Öncelikli olarak derin öğrenme algoritmaları için kullanılan nöral ağlar, düğüm katmanları aracılığıyla insan beyninin birbiriyle olan bağlantısını taklit ederek eğitim verilerini işleme alır. Her düğüm; girişlerden, ağırlıklardan, bir yanlılık (ya da eşik) ve bir çıkıştan oluşur. Bu çıkış değeri belirli bir eşiği aşarsa düğümü "tetikler" veya etkinleştirerek verileri ağdaki bir sonraki katmana iletir. Nöral ağlar, gözetimli öğrenmeyle bu eşleme işlevini öğrenir ve gradyan azalma süreciyle kayıp işlevine göre uyarlama yapar. Nöral ağlar daha doğru olma eğilimindedir ve daha çok veri kabul edebilir, diğer yandan geleneksel dil modellerine göre eğitilmeleri daha yavaş olabileceğinden performans verimi açısından bunun bir bedeli olur.
  • Konuşmacı Günlükleme: Konuşmacı günlükleme (SD; Speaker Diarization) algoritmaları, konuşmayı konuşmacının kimliğine göre tanımlar ve sınıflandırır. Bu, programların bir sohbet içinde kişileri daha iyi ayırt etmesine yardımcı olur ve müşterilerle satış temsilcilerini ayırmak için çağrı merkezlerinde sıkça uygulanır.

IBM'in Konuşmadan Metne Dönüştürme hizmetlerinde SD modellerinden nasıl yararlandığını Watson bloğunu okuyarak öğrenebilirsiniz.

Konuşma tanıma kullanım senaryoları

Günümüzde çok sayıda sektörde konuşma teknolojisinin çeşitli uygulamaları kullanılıyor ve bunlar, işletmelerin ve tüketicilerin zamandan tasarrufu etmelerine, hatta hayatları kurtarmalarına yardımcı oluyor. Bazı örnekler arasında şunlar yer alıyor:

Otomotiv: Konuşma tanıyıcıları, araba radyolarında arama yetenekleri ve sesle etkinleştirilen navigasyon sistemleri sağlayarak sürücünün güvenliğini artırıyor.

Teknoloji: Sanal asistanlar, özellikle mobil cihazlarda olmak üzere, günlük yaşamımızın her alanında giderek daha fazla yer alıyor. Sesli arama gibi görevler için Google Assistant veya Apple Siri aracılığıyla akıllı telefonlarımızdan veya müzik dinlemek için Amazon Alexa veya Microsoft Cortana ile hoparlörlerimizden bunlara erişmek amacıyla sesli komutları kullanıyoruz. Konuşma tanıma, kullandığımız gündelik ürünlerin bir parçası olmaya devam edecek ve "Nesnelerin İnterneti" hareketini destekleyecek.

Sağlık: Doktorlar ve hemşireler, hasta teşhislerini ve tedavi notlarını almak ve kaydetmek için dikte uygulamalarından yararlanıyorlar.

Satış: Konuşma tanıma teknolojisinin, satış alanında çeşitli uygulamaları bulunuyor. Bir çağrı merkezinin, yaygın arama modelleri ve sorunlarını tespit etmek için müşteriler ve temsilciler arasındaki binlerce telefon konuşmasını metine aktarmasına yardımcı olabiliyor. Kognitif robotlar da bir web sayfası aracılığıyla insanlarla konuşarak bir iletişim merkezi temsilcisinin müsaitliği için beklemeye gerek olmadan yaygın sorguları yanıtlayıp temel istekleri çözüme kavuşturabiliyor. Bunların her ikisi de, konuşma tanıma sistemlerinin müşteri sorunlarının çözülmesi için gereken süreyi azaltmaya nasıl yardımcı olduğunu gösteren örnekler.

Güvenlik: Teknolojinin günlük yaşamımızla iç içe olmasıyla birlikte güvenlik protokolleri de önemi her geçen gün artan bir öncelik haline geliyor. Ses tabanlı kimlik doğrulama, uygulanabilir bir güvenlik düzeyi sağlıyor.

Audioburst gibi şirketlerin, radyo istasyonları ve podcast'lerden gerçek zamanlı olarak sesleri dizinlemek için konuşma tanıma yazılımlarından nasıl yararlandıklarını öğrenmek için buraya bakabilirsiniz.

Konuşma Tanıma ve IBM

IBM, kuruluşların karmaşık iş süreçlerini otomatikleştirirken önemli iş içgörüleri elde etmelerini sağlayan Konuşma Tanıma araçlarının ve hizmetlerinin geliştirilmesine öncülük etmiştir.

  • IBM Watson Speech to Text optimum metin aktarımı için özelleştirilebilir konuşma tanıma yaratmak amacıyla dil bilgisi, dil yapısı ve ses sinyali kompozisyonu hakkında bilgileri uygulamak üzere derin öğrenme yapay zeka algoritmalarını kullanan, bulut tabanlı bir çözümdür.
  • IBM Watson Text to Speech, yazılı metinden insan sesine benzer sesler oluşturur. Bu şekilde, diller ve etkileşim yöntemlerinde erişilebilirliği iyileştirerek müşteriyle etkileşimi ve memnuniyeti artırır.

Konuşma tanıma teknolojisine başlangıç hakkında daha fazla bilgi için IBM Watson Speech to Text ve IBM Watson Text to Speech ile tanışın.

Bir IBMid almak üzere kaydolun ve IBM Cloud hesabınızı oluşturun.