टेक्स्ट-टू-स्पीच रोबोट
भाषा संकलन
मशीनों की सहायता से मानव की तरह भाषण कृत्रिम बनाने की विधि को भाषण संश्लेषण कहा जाता है। एक कंप्यूटर सिस्टम जिसे इस प्रक्रिया को पूरा करने के लिए उपयोग में लाया जाता है उसे स्पीच सिंथेसाइज़र कहा जाता है। सिस्टम को सॉफ्टवेयर या हार्डवेयर में आगे के कार्यान्वयन की आवश्यकता होती है, और हम टेक्स्ट-टू-स्पीच (टीटीएस) सिस्टम में इसके एक आवेदन को नोटिस कर सकते हैं। टेक्स्ट-टू-स्पीच सिस्टम टेक्स्ट के रूप में रोजमर्रा की मानव भाषा को इनपुट के रूप में स्वीकार करता है और इसे आउटपुट के रूप में भाषण में परिवर्तित करता है।
स्पीच सिंथेसिस एक डेटाबेस में संग्रहित इकाइयों के रूप में रिकॉर्ड किए गए भाषण को अनुक्रमित करके किया जाता है। सिस्टम संग्रहीत आवाज़ इकाइयों के आकार में भिन्न होता है; सबसे व्यापक आउटपुट रेंज एक ऐसी प्रणाली द्वारा प्रदान की जाती है जो स्पष्टता के नुकसान की संभावना के साथ टेलीफोन या डिपहोन्स को स्टोर करती है।
पूरे शब्दों या वाक्यों का भंडारण विशेष रूप से उपयोगकर्ता डोमेन के लिए उच्च गुणवत्ता वाले उत्पादन की अनुमति देता है। इस पद्धति को एक मुखर पथ मॉडल और मानव आवाज से संबंधित विभिन्न अन्य विशेषताओं को शामिल करके और कृत्रिम आवाज उत्पादन उत्पन्न करके प्रतिस्थापित किया जा सकता है।
एक स्पीच सिंथेसाइज़र की आउटपुट गुणवत्ता वास्तविक मानव आवाज़ के साथ इसकी निकटता और इसे समझना कितना आसान है, इस पर निर्भर करती है। वाक् संश्लेषण उपकरण का उपयोग 1990 के दशक से स्पष्ट हो गया है, जिसे विशिष्ट विकलांगताओं और दुर्बलताओं वाले लोगों की सहायता के लिए पूरी तरह से विकसित किया गया है।
पाठ से वाक् प्रणाली का अवलोकन
पाठ से भाषण के दो महत्वपूर्ण भाग हैं:
- अग्रांत- यह इनपुट टेक्स्ट को परिवर्तित करने के लिए जिम्मेदार है, जिसमें विभिन्न प्रतीकों, संख्याओं और संक्षिप्तीकरण को समझने योग्य और परिवर्तनीय डेटा के समतुल्य रूप में शामिल किया गया है। इस प्रक्रिया को पाठ सामान्यीकरण या डेटा के पूर्व-प्रसंस्करण के रूप में कहा जाता है। प्रत्येक शब्द को फिर ध्वन्यात्मक क्षणभंगुरता के साथ असाइन किया जाता है और पाठ को अभियोजन इकाइयों में, जैसे वाक्यों, खंडों और वाक्यांशों को पाठ-से-फ़ोनेम या ग्रेफेम-टू-फ़ेफेमे नामक प्रक्रिया के माध्यम से टैग करता है। दो पहलुओं को तब प्रतीकात्मक भाषाई प्रतिनिधित्व वाले आउटपुट डेटा को उत्पन्न करने के लिए संयुक्त किया जाता है।
- बैक एंड- आमतौर पर "सिंथेसाइज़र" के रूप में कहा जाता है, यह हिस्सा ध्वनि में प्रतीकात्मक भाषाई प्रतिनिधित्व के लिए जवाबदेह है। उन्नत प्रणाली में, इस प्रक्रिया को लक्ष्य अभियोजन (पिच समोच्च, फोनम समय) की गणना के बाद आगे बढ़ाया जाता है, जिसका उपयोग आउटपुट भाषण में किया जाएगा।
स्पीच सिंथेसिस में शामिल तकनीकें
स्वाभाविकता और समझदारी सबसे महत्वपूर्ण गुण हैं जो एक भाषण संश्लेषण उपकरण की गुणवत्ता निर्धारित करते हैं। स्वाभाविकता को डिवाइस की क्षमता से परिभाषित किया गया है ताकि मानव आवाज को यथासंभव बारीकी से दोहराया जा सके, और समझदारी यह निर्धारित करती है कि डिवाइस कितनी आसानी से आउटपुट ध्वनि को समझ सकता है। भाषण सिंथेसाइज़र इन दोनों पहलुओं में इष्टतम परिणाम देने का प्रयास करते हैं।
कॉन्टैनेटिव सिंथेसिस और फॉर्मेंट सिंथेसिस दो प्राथमिक प्रौद्योगिकियां हैं जो सिंथेटिक स्पीच वेवफॉर्म उत्पन्न करती हैं। प्रत्येक तकनीक में ताकत और नुकसान होते हैं, और एक संश्लेषण विधि का सामान्य उपयोग आमतौर पर इनमें से एक दृष्टिकोण की पसंद को निर्धारित करता है।
संघात्मक संश्लेषण
एक निश्चित तरीके से रिकॉर्ड किए गए भाषण के टुकड़ों को सीक्वेंस करना समसामयिक संश्लेषण कहलाता है। यह प्रक्रिया आम तौर पर सबसे प्राकृतिक-ध्वनि संश्लेषित भाषण का उत्पादन करती है। हालांकि, प्राकृतिक भाषण विविधताओं और स्वचालित तरंग विभाजन विभाजन के तरीकों के बीच असंगतता के परिणामस्वरूप अक्सर श्रव्य आउटपुट ग्लिच होते हैं।
वहाँ तीन महत्वपूर्ण उप-प्रकार के समवर्ती संश्लेषण मौजूद हैं।
- इकाई चयन संश्लेषण- इस चयन तकनीक के लिए इनपुट रिकॉर्डेड भाषण का एक व्यापक डेटाबेस है। मजबूर संरेखण मोड में सेट वाक् पहचानकर्ता का उपयोग करके डेटाबेस का विभाजन किया जाता है। फोन, डिपहोन्स, शब्द, वाक्यांश, शब्दांश, शब्दकूट, वाक्य, आदि जैसी इकाइयों में विभाजन के परिणामस्वरूप इन इकाइयों का अनुक्रमण विभिन्न मापदंडों जैसे- पिच, अवधि, शब्दांश में स्थिति और पड़ोसी फोन पर आधारित होता है। निर्णय पेड़ प्रक्रिया निष्पादन के लिए एक श्रृंखला बनाने के लिए सबसे उपयुक्त इकाइयों का चयन करती है। डेटाबेस जितना व्यापक होगा, उतना ही स्वाभाविक है आउटपुट भाषण। यह तकनीक रिकॉर्ड किए गए डेटा के आधार पर आउटपुट भाषण के लिए सबसे असाधारण स्वाभाविकता प्रदान करती है।
- डिपफोन संश्लेषण- इस तकनीक के लिए डेटाबेस में केवल डिपहोन्स होते हैं, जो इसे अपेक्षाकृत छोटा बनाता है। एक चयनित भाषा के ध्वन्यात्मकता पर विचार करने के लिए सभी अद्वितीय डिपहोन के सेट को निर्धारित करता है। भाषण डेटाबेस में प्रत्येक डिपफोन की एकल रिकॉर्डिंग शामिल है। PSOLA, MBROLA, लीनियर प्रेडिक्टिव कोडिंग जैसी विभिन्न डिजिटल सिग्नल प्रोसेसिंग तकनीकों का उपयोग इन डिपो यूनिटों पर लक्ष्य वाक्य को सुपरमप करने के लिए किया जाता है। डिपफोन सिंथेसिस का उपयोग शोध तक ही सीमित है क्योंकि भाषण में स्वाभाविकता का अभाव है, बहुत रोबोट लगता है, और इसमें सोनिक ग्लिट्स होते हैं।
- डोमेन-विशिष्ट संश्लेषण- इस तकनीक का डेटाबेस पहले से रिकॉर्ड किए गए शब्दों और वाक्यांशों तक ही सीमित है। इस संश्लेषण विधि की प्रयोज्यता उस डोमेन तक सीमित है जिसके आधार पर डेटाबेस उत्पन्न होता है, उदाहरण के लिए, रेलवे स्टेशन की घोषणाएँ, मौसम की रिपोर्ट, बात करने वाली घड़ियाँ, आदि। इस तकनीक का कार्यान्वयन सीधा है, और एक ही समय में, उच्च स्तर का सीमित आउटपुट वाक्यों के कारण स्वाभाविकता प्राप्त की जा सकती है। प्राकृतिक भाषण के साथ शब्दों का एक सहज सम्मिश्रण प्राप्त करने के लिए, कई भाषा विविधताओं का हिसाब होना चाहिए।
पूर्व संश्लेषण
कई अनुप्रयोगों के लिए, भाषण की स्वाभाविकता एक लक्ष्य नहीं है; बल्कि, विश्वसनीयता, बुद्धिमत्ता और उच्च गति सटीकता अधिक महत्वपूर्ण हैं। यह फॉर्मेंट सिंथेसिस का उपयोग करके प्राप्त किया जा सकता है, जो एक संश्लेषित संश्लेषण और ध्वनिक मॉडलिंग को नियोजित करने वाला संश्लेषित भाषण बनाता है। यह विधि, जिसे नियम-आधारित संश्लेषण भी कहा जाता है, आवृत्ति, शोर के स्तर और आवाज की तरह अलग-अलग मापदंडों द्वारा एक कृत्रिम भाषण तरंग बनाता है।
फार्मेंट सिंथेसिस तकनीक द्वारा निर्मित कृत्रिम, रोबोटिक-साउंडिंग भाषण मानव भाषण के लिए गलत होने की संभावना नहीं है। ध्वनिक ग्लिट्स, जो कि कॉन्टेनेटिव सिस्टम में आम हैं, मुख्य रूप से इस तकनीक में समाप्त हो जाते हैं। भाषण रिकॉर्डिंग के व्यापक डेटाबेस की अनुपस्थिति के कारण, ये कार्यक्रम अपेक्षाकृत छोटे हैं क्योंकि वे एम्बेडेड सिस्टम में उपयोग करते हैं जहां प्रसंस्करण के लिए शक्ति सीमित है।
मानक प्रश्नों और कथनों के अलावा कई प्रकार के वॉयस टोन और भावनाओं को व्यक्त करना संभव है क्योंकि प्रारूप आधारित सिस्टम आउटपुट के सभी पहलुओं पर पूर्ण नियंत्रण प्रदर्शित करते हैं। उदाहरण के लिए, कई उल्लेखनीय वीडियो गेम ने इंटरैक्टिव भाषण के लिए प्रारूप संश्लेषण प्रौद्योगिकी का उपयोग किया है।
कलात्मक संश्लेषण
मानव मुखर पथ मॉडल के आधार पर भाषण ध्वनियों को उत्पन्न करने के लिए जिस विधि का उपयोग किया जाता है उसे आर्टिक्यूलेटरी संश्लेषण कहा जाता है। इसका उद्देश्य भाषण कलाकारों को एक या अधिक तरीकों से अनुकरण करना है। यह भाषण के विकास की समझ हासिल करने और ध्वनिविज्ञान पर शोध करने का एक तरीका प्रदान करता है।
इस तरह के एक मॉडल में कॉर्टिकुलेशन स्वाभाविक रूप से होने वाला प्रभाव है, और यह ग्लोटल स्रोत के गुणों, मुखर सिलवटों के साथ वोकल ट्रैक्ट के संबंध और कैसे सबग्लोटल सिस्टम, नाक ट्रैक्ट और साइनस गुहाएं इस मॉडल के माध्यम से मानव जैसी भाषण की पीढ़ी को प्रभावित करती हैं।
आर्टिक्यूलेटरी सिंथेसिस में आमतौर पर दो अलग-अलग घटक शामिल होते हैं: वोकल ट्रैक्ट, जिसे कई उप-घटकों में विभाजित किया जाता है, और संबंधित क्रॉस-सेक्शनल रीजन को वोकल कॉर्ड विशेषताओं के प्रतिबिंब की ओर पैरामीट्रिक रूप से उपयोग किया जाता है। ध्वनिक मॉडल में, एक विद्युत एनालॉग ट्रांसमिशन लाइन प्रत्येक क्रॉस-अनुभागीय क्षेत्र का अनुमान लगाती है।
मुखर पथ का अनुकरण समय के संबंध में क्षेत्र के कार्यों में दिखाई देने वाले परिवर्तनों के अधीन है। प्रत्येक ध्वनि को आवंटित लक्ष्य विन्यास मुखर पथ आंदोलन की गति को निर्धारित करता है। यदि ठीक से निर्माण किया जाता है, तो आर्टिक्यूलेटरी सिंथेसाइज़र वास्तविक भाषण उत्पादन में शामिल प्रक्रियाओं को दोहराने के लिए फ्रिकिटिव्स और प्लोसिव्स और मॉडलिंग कोआर्टिक्यूलेशन बदलाव विकसित करने में हर प्रासंगिक प्रभाव को पुन: उत्पन्न कर सकता है।
1970 के दशक के मध्य में, हास्किंस प्रयोगशालाओं में, फिलिप रूबिन, टॉम बेयर, और पॉल मेर्मेलस्टीन ने प्रयोगशाला प्रयोगों के लिए आमतौर पर इस्तेमाल किया जाने वाला पहला आर्टिकुलेटरी सिंथेसाइज़र बनाया।
HMM- आधारित संश्लेषण
यह "छिपे हुए मार्कोव मॉडल" का अनुसरण करके एक सांख्यिकीय पैरामीटर संश्लेषण है। हम्म एक साथ इस पद्धति में आवृत्ति स्पेक्ट्रम, मौलिक आवृत्ति और भाषण की लंबाई को मॉडल करें। अधिकतम संभावना मानदंड पर निर्मित भाषण तरंगों को स्वयं एचएमएम से बनाया गया है।
कम्प्यूटेशनल बायोलॉजी में एक छिपा हुआ मार्कोव मॉडल (HMM) एक गणितीय तकनीक है जिसका उपयोग ज्यादातर जैविक अनुक्रम मॉडलिंग के लिए किया जाता है। एक अनुक्रम को इसके कार्यान्वयन में एक असतत स्टोचस्टिक विधि के आउटपुट के रूप में तैयार किया गया है, जो अनुक्रमिक राज्यों के एक सेट के माध्यम से आगे बढ़ता है जो पर्यवेक्षक से 'छिपी' हैं।
सिनवेव सिंथेसिस
साइनवेव सिंथेसिस, या साइनवेव आवाज, फार्मेंट्स (प्रमुख ऊर्जा बैंड) के लिए शुद्ध स्वर सीटी को प्रतिस्थापित करके भाषण को संश्लेषित करने की एक विधि है। फिलिप रूबिन ने 1970 के दशक में हास्किन्स प्रयोगशालाओं में अवधारणात्मक प्रयोगों के लिए उत्तेजनाओं के स्वचालित उत्पादन के लिए पहला सिनवेव सिंथेसिस सॉफ्टवेयर (एसडब्ल्यूएस) बनाया।
सिन्वेव स्पीच एक अजीबोगरीब घटना है, जिसमें भाषण सुविधाओं में से कुछ को एक साथ रखे गए साइनसोइड्स द्वारा लिया जाता है - जो कि वे ज्यादातर मामलों में समान नहीं होते हैं। उच्च समझदारी तीन साइनसोइड्स का उपयोग करके प्राप्त की जा सकती है जो पहले तीन भाषण फॉर्मेंट की आवृत्ति और आयाम को ट्रैक करते हैं।
डीप लर्निंग-आधारित सिंथेसिस
एचएमएम-आधारित दृष्टिकोण के विपरीत, डीप लर्निंग-आधारित पद्धति स्पष्ट रूप से ध्वनिक विशेषताओं के लिए भाषाई विशेषताओं का मानचित्रण करती है, जिसमें अंतर्निहित तंत्रिका संबंधी आंकड़े सीखने में बेहद सफल साबित होते हैं। लोगों ने अध्ययन की लंबी परंपरा में विभिन्न मॉडलों का सुझाव दिया है जो भाषण संश्लेषण के लिए डीप लर्निंग-आधारित विधियों का पालन करते हैं।
भाषण संश्लेषण के लिए एक उपयोगी उपकरण बन गया है ध्यान लगा के पढ़ना या सीखना प्रशिक्षण डेटा की विशाल मात्रा का शोषण करने में सक्षम। हाल ही में, गहन शिक्षण तकनीकों या यहां तक कि एंड-टू-एंड सिस्टम पर अधिक से अधिक शोध किए गए हैं, और अत्याधुनिक सफलता प्राप्त की गई है।
सितंबर 2016 ने WaveNet की शुरुआत को चिह्नित किया Deepmind, कच्चे ऑडियो तरंगों का एक गहरा जेनरिक मॉडल। इसने स्पष्ट किया कि गहरी सीखने-आधारित मॉडल कच्चे तरंगों को मॉडल कर सकती हैं और अभिव्यक्ति उत्पन्न करने के लिए स्पेक्ट्रोग्राम या विशिष्ट पूर्व-संसाधित भाषाई विशेषताओं जैसे ध्वनिक विशेषताओं से अच्छा प्रदर्शन कर सकती हैं।
एंड-टू-एंड सिस्टम के लाभ-
- एकल प्रणाली का उपयोग करके पाठ विश्लेषण की सीमित क्षमता।
- सुविधा इंजीनियरिंग की सीमित राशि।
- मौजूदा विशेषताओं के समृद्ध कंडीशनिंग और नए लोगों के लिए आसान अनुकूलन।
- बढ़ी हुई स्वाभाविकता और समझदारी
- मल्टी-स्टेज मॉडल की तुलना में अधिक मजबूत।
एंड-टू-एंड सिस्टम के नुकसान-
- धीमी आक्षेप की समस्या का अस्तित्व।
- कम मजबूत आउटपुट भाषण में कम डेटा परिणाम होता है।
- संघटक दृष्टिकोण की तुलना में सीमित नियंत्रण क्षमता।
- फ्लैट अभियोक्ता को प्रशिक्षण डेटा पर औसत के साथ विकसित किया जाता है।
भाषण संश्लेषण में शामिल चुनौतियां
- संदर्भ के आधार पर एक ही वर्तनी वाले अलग-अलग उच्चारित शब्दों का आवास।
- एक का विस्तार करने के लिए कैसे की संज्ञा। आसपास के शब्द, संख्या और विराम चिह्न के आधार पर। उदाहरण के लिए, 1465 'एक हजार चार सौ पैंसठ' हो सकता है या 'एक चार छह पांच', 'चौदह पैंसठ' या 'चौदह सौ पैंसठ' के रूप में भी पढ़ा जा सकता है।
- संक्षेप में अस्पष्टता। उदाहरण के लिए, 'इन' के लिए 'इंच' को 'इन' शब्द से अलग किया जाना चाहिए।
- डिक्शनरी आधारित दृष्टिकोण (डिक्शनरी में प्रत्येक शब्द को देखना और टेक्स्ट-टू-फोनेम प्रक्रिया का सही उच्चारण चुनने के लिए शब्दकोश में विस्तृत उच्चारण के साथ उच्चारण करना) किसी भी शब्द के लिए पूरी तरह से विफल हो जाता है, जो इसमें पाया जा सकता है शब्दकोष।
- नियम-आधारित दृष्टिकोण (उनके उच्चारण के आधार पर उनके उच्चारण का मूल्यांकन करने के लिए, शब्दों पर नियम लागू किए जाते हैं, या 'पढ़ना सीखने का तरीका' का दृष्टिकोण।) पाठ-से-फोनेमी प्रक्रिया विफल हो जाती है क्योंकि योजना असामान्य वर्तनी या उच्चारण को ध्यान में रखती है क्योंकि नियमों का परिष्कार काफी बढ़ जाता है।
- आम तौर पर स्वीकृत उद्देश्य प्रदर्शन मानकों की कमी के कारण भाषण संश्लेषण प्रणालियों के विश्वसनीय मूल्यांकन में कठिनाई।
- वाक्य की पिच समोच्च की शिफ्ट, इस पर निर्भर करता है कि यह एक सकारात्मक, पूछताछ या विस्मयादिबोधक अभिव्यक्ति है।
मेकनम व्हील्ड रोबोट पर पिछले लेख के लिए, यहां क्लिक करें.
यह भी पढ़ें:
- तत्वों के सहसंयोजक बंधन प्रकार
- रोबोटिक आर्म डिज़ाइन प्रकार के अनुप्रयोग
- फ्लैगेल्ला के प्रकार
- आरएनए में नाइट्रोजनस आधारों के प्रकार
- केराटोमीटर 2 महत्वपूर्ण प्रकार के उपयोग के चरण
- प्रकाश के हस्तक्षेप के प्रकार
- माइक्रोस्कोप के प्रकार
- नीहारिका की परिभाषा निर्माण एवं 4 महत्वपूर्ण प्रकार
- अपवर्तन के प्रकार
- डीएनए प्रतिकृति प्रकार
मेरी पृष्ठभूमि एयरोस्पेस इंजीनियरिंग में है, मैं वर्तमान में रक्षा और अंतरिक्ष विज्ञान उद्योग में रोबोटिक्स के अनुप्रयोग की दिशा में काम कर रहा हूं। मैं निरंतर सीखता रहता हूं और रचनात्मक कलाओं के प्रति मेरा जुनून मुझे नई इंजीनियरिंग अवधारणाओं को डिजाइन करने की ओर झुकाए रखता है।
भविष्य में लगभग सभी मानवीय क्रियाओं का स्थान रोबोट ले लेंगे, मैं अपने पाठकों के लिए इस विषय के मूलभूत पहलुओं को आसान लेकिन जानकारीपूर्ण तरीके से लाना चाहता हूँ। मैं एयरोस्पेस उद्योग में प्रगति के साथ-साथ अपडेट रहना भी पसंद करता हूं।
नमस्कार साथी पाठक,
टेकीसाइंस में हम एक छोटी टीम हैं, जो बड़े खिलाड़ियों के बीच कड़ी मेहनत कर रही है। यदि आप जो देखते हैं वह आपको पसंद आता है, तो कृपया हमारी सामग्री को सोशल मीडिया पर साझा करें। आपके समर्थन से बहुत फर्क पड़ता है. धन्यवाद!