![Android वर लाइव्ह कॅप्शन सादर करत आहे](https://i.ytimg.com/vi/hPv1PkjJ-J0/hqdefault.jpg)
सामग्री
स्थानिक व्हिडिओ आणि वेब क्लिपसाठी मथळे व्युत्पन्न करण्यासाठी ऑन-डिव्हाइस मशीन शिक्षण वापरुन, थेट मथळे अद्याप एक उत्कृष्ट Android वैशिष्ट्यांपैकी एक आहे.
गूगलने हे निफ्टी वैशिष्ट्य कसे कार्य करते याबद्दल तपशीलवार एक ब्लॉग पोस्ट प्रकाशित केले आहे आणि यात प्रत्यक्षात स्टार्टर्ससाठी तीन ऑन-डिव्हाइस मशीन शिक्षण मॉडेल असतात.
भाषण ओळखण्यासाठी स्वतःच वारंवार न्यूरल नेटवर्क सीक्वेन्स ट्रान्सड्रक्शन (आरएनएन-टी) मॉडेल आहे, परंतु विरामचिन्हे सांगण्यासाठी Google वारंवार न्यूरल नेटवर्क देखील वापरत आहे.
पक्षी किलबिलाट करणे, लोक टाळ्या वाजवणे आणि संगीत यासारखे आवाज इव्हेंटसाठी तिसरे ऑन-मशीन मशीन लर्निंग मॉडेल एक कॉन्व्होल्यूशनल न्यूरल नेटवर्क (सीएनएन) आहे. गूगल म्हणतो की हे तिसरे मशीन लर्निंग मॉडेल थेट ट्रान्सक्राइब accessक्सेसीबीलिटी appपवरील त्याच्या कार्यापासून तयार केले गेले आहे, जे भाषण आणि आवाज इव्हेंटचे लिप्यंतरण करण्यास सक्षम आहे.
थेट मथळ्याचा प्रभाव कमी करत आहे
लाइव्ह कॅप्शनचा बॅटरी वापर आणि कामगिरीच्या मागणी कमी करण्यासाठी असंख्य उपाययोजना केल्याचे कंपनीचे म्हणणे आहे.एकासाठी, संपूर्ण पार्श्वभूमीत सतत चालण्याच्या विरूद्ध, भाषण प्रत्यक्षात सापडल्यावरच पूर्ण स्वयंचलित भाषण ओळख (एएसआर) इंजिन चालते.
“उदाहरणार्थ, जेव्हा संगीत आढळल्यास ऑडिओ प्रवाहात भाषण नसते तेव्हा लेबल स्क्रीनवर दिसून येईल आणि एएसआर मॉडेल अनलोड होईल. जेव्हा भाषण पुन्हा ऑडिओ प्रवाहात असेल तेव्हा एएसआर मॉडेल फक्त मेमरीमध्ये लोड होते, ”गुगलने आपल्या ब्लॉग पोस्टमध्ये स्पष्ट केले आहे.
गुगलने तंत्रिका कनेक्शनची छाटणी (भाषण मॉडेलचा आकार कापून टाकणे), विजेचा वापर 50% कमी करणे आणि लाइव्ह कॅप्शनला सतत चालण्याची परवानगी देणे यासारख्या तंत्रे वापरली आहेत.
गूगल स्पष्ट करते की मथळा तयार होताच उच्चार ओळख परिणाम प्रत्येक सेकंदात काही वेळा अद्यतनित केला जातो, परंतु विरामचिन्हे अंदाज वेगळे असतात. स्त्रोत मागणी कमी करण्यासाठी "सर्वात अलिकडील मान्यताप्राप्त वाक्यातून मजकूराच्या शेपटीवर" विरामचिन्हे अंदाज वितरीत करणारा शोधकर्ता म्हणतो.
लाइव्ह कॅप्शन आता Google पिक्सेल 4 मालिकांमध्ये उपलब्ध आहे आणि Google म्हणते की ते पिक्सेल 3 मालिका आणि इतर डिव्हाइसवर “लवकरच” उपलब्ध होईल. कंपनी म्हणते की ती अन्य भाषांच्या समर्थनावर आणि मल्टी-स्पीकर सामग्रीसाठी चांगल्या समर्थनावर देखील कार्यरत आहे.