Google BERT Vs. Смит алгоритмдері бірге жұмыс істейді - Semalt шолу




Google жақында SML жаңа NLP алгоритмі туралы зерттеу жұмысын шығарды. Бұл жұмыс көптеген SEO мамандарын SERP рейтингінің жоғарылауына немесе төмендеуіне кепіл болатын өзгерістер туралы білді. Дегенмен, біздің жаңа алаңдағы SMITH алгоритмі BERT-мен қалай салыстырылады?

Google жариялаған мақалада олар SMITH ұзақ іздеу сұраулары мен ұзақ құжаттарды түсінуде BERT-тен асып түседі деп мәлімдеді. SMITH-ті соншалықты қызықты ететіні - ол құжаттағы үзінділерді BERT-тің сөздермен және сөйлемдермен жасайтынына ұқсас етіп түсіне алатындығында. SMITH-тің бұл жетілдірілген ерекшелігі ұзақ құжаттарды оңай түсінуге мүмкіндік береді.

Әрі қарай жүрмес бұрын, сізге дәл қазір SMITH-тің Google алгоритмінде өмір сүрмейтінін хабарлауымыз керек. Бірақ егер біздің болжамдарымыз дұрыс болса, онда ол индекстеу индексімен қатар іске қосылады немесе оның алдында болады. Егер сіз SEP-ге қалай ену керектігін білгіңіз келсе, Machine learning сөзсіз осы қызығушылықпен қатар жүреді.

Тақырыпқа қайта оралсақ, BERT ауыстырылғалы тұр ма? Интернеттегі құжаттардың көпшілігі үлкен, берік және сондықтан SMITH көмегімен ұзақ уақыт жұмыс істейді емес пе?

Енді әрі қарай секіріп, не түйгенімізді көрейік. SMITH сенімді әрі жұқа құжаттарды оқу жұмысын орындай алады. Мұны Базука сияқты ойлаңыз. Бұл үлкен зиян келтіруі мүмкін, сонымен қатар есіктерді аша алады.

Бастау үшін не үшін BERT немесе SMITH керек?

Бұл жерде іздеу машинасы іздеу нәтижелерін беру үшін Natural Learning Processing-ті не үшін қажет етеді деген сұрақ туындайды Жауап қарапайым. Іздеу жүйелері іздеу машиналарын түсіну жолдарынан немесе кілт сөздерінен заттарға немесе веб-парақтарға ауысу үшін NLP-ді қажет етеді.

Google-де түсінік болмаса, бетте кілт сөздерден басқа не болуы мүмкін немесе индекстелген мазмұн іздеу сұранысына қатысты мағынасы бар ма. NLP арқасында Google іздеу сұрауына енгізілген таңбалардың мәтінін түсінеді.
NLP арқасында Google пайдаланушының ниетін «өзен жағалауы» және «банктік шот» дегенде ажырата алады. Сондай-ақ, «Каролин достарымен сусын, сусын, пинт, але, қайнату үшін кездесті» сияқты тұжырымдарды табиғи емес деп түсінуге болады.

SEO мамандары ретінде іздеу сұранысын түсіну ұзақ жолдан өтті деп айтуымыз керек. Бұрын интернеттен қажетті мақалаларды табу өте қиын деп санайды.

BERT туралы түсінік

Қазіргі уақытта BERT бізде көптеген NLP моделдері ретінде жұмыс істейді, бірақ көбісі, әсіресе күрделі тілдік құрылымдарды түсінуге келгенде. Көбісі бірінші екі бағытты символды осы алгоритмдегі ең үлкен секіріс деп санайды. BERT солдан оңға қарай оқитын алгоритмнің орнына сөздерді олардың контекстімен байланыста түсінеді. Осылайша, бұл сұрауға қойылған жеке сөздер үшін нәтиже бермейді, бірақ іздеу сұранымындағы сөздердің жиынтық мағынасына негізделген веб-сайттарды индекстейді.

Сіздің түсінігіңізді жеңілдететін мысал:

Жүк көлігі жарық болды.

Егер сіз бұл мәлімдемені солдан оңға қарай түсіндірсеңіз, «жеңіл» деген сөзге жеткенде, сіз жүк көлігін жарықпен бірге затқа жатқызар едіңіз. Себебі жүк көлігі мәлімдемеде жарықтан бұрын келді.

Бірақ егер біз жүк машиналарында заттарды жіктегіміз келсе, онда біз «жеңілден» бас тартуымыз мүмкін, өйткені біз оны «жүк көлігінен» бұрын кездестірмейміз.

Мәлімдемені тек бір бағытта қарастыру қиын.

Сонымен қатар, BERT-тің тағы бір құпия артықшылығы бар, және ол тілді алдыңғы модельдермен салыстырғанда ресурстарды аз шығындармен тиімді өңдеуге мүмкіндік береді. Бұл шынымен де оны бүкіл вебке қолданғысы келген кезде ескеру керек маңызды фактор.

Төкендерді қолдану - бұл BERT-мен бірге жүретін тағы бір эволюция. BERT-де 30000 таңбалауыш бар, және олардың әрқайсысы жалпы сөзді білдіреді, егер сөз 30 000-нан тыс болса, кейіпкерлер мен фрагменттер үшін бірнеше қосымша таңбалауыштары бар.

Токендер мен трансформаторларды өңдеу қабілеті арқылы BERT мазмұнын түсінді, бұл оған сөйлемдерді адекватты түсіну мүмкіндігін берді.

Демек, «жас келіншек банкке барды. Ол кейінірек өзен жағасында отырып, өзеннің ағып жатқанын бақылап отырды».

BERT бұл сөйлемдерге әр түрлі мәндер береді, өйткені олар екі түрлі нәрсеге сілтеме жасайды.

SMITH туралы түсінік

Содан кейін SMITH, үлкенірек құжаттарды өңдеу үшін пайдалану үшін жақсы ресурстар мен сандарға ие алгоритм келеді. BERT бір құжат үшін шамамен 256 таңбалауыш пайдаланады, егер ол осы межеден асып кетсе, есептеу құны оңтайлы жұмыс үшін тым жоғары болады. Керісінше, SMITH құжат үшін 2248 таңбалауышқа дейін жұмыс істей алады. Бұл BERT таңбалауышының шамамен 8Х саны.

Неліктен NLP моделінде есептеу шығындары өсетінін түсіну үшін алдымен сөйлем мен абзацты түсіну үшін не қажет екенін қарастырған жөн. Сөйлеммен жұмыс жасағанда бір ғана жалпы ұғым түсінуге болады. Бір-біріне қатысты сөздер азырақ, сондықтан сөздер мен олардың есте сақтайтын идеялары арасындағы байланыс аз болады.

Сөйлемдерді абзацқа айналдыру арқылы бұл сөздер арасындағы байланыс едәуір көбейтіледі. 8X мәтіні сол модель арқылы жылдамдықты және жадты оңтайландыру қабілетін бірнеше рет қажет етеді. Бұл жерде SMITH барлық айырмашылықты негізінен пакеттік өңдеу және көптеген оффлайн өңдеу арқылы жасайды. SMITH-тің дұрыс жұмыс істеуі BERT-ге байланысты.

SMITH құжатты өз негізінде қалай алатындығы туралы сипаттама:
  1. Ол алдымен құжатты басқаруды жеңілдететін топтық өлшемдерге бөледі.
  2. Содан кейін ол сөйлемдердің әр блогын жеке-жеке өңдейді.
  3. Содан кейін трансформатор әр блоктың контексттік көрінісін үйренеді, содан кейін оларды құжат көрінісіне айналдырады.

SMITH қалай жұмыс істейді?

SMITH моделін үйрету үшін біз BERT-тен екі жолмен үйренеміз:

BERT-ті үйрету үшін сөйлемнен сөз алынып тасталады және балама нұсқалар ұсынылады

Жақсы дайындалған BERT - ұсынылған баламалардың ішінен дұрыс нұсқаны таңдауда сәтті болады. Мысалы, егер BERT-ге сөйлем берілсе:

Бақытты қоңыр ------ пикет қоршауынан секірді.
  • Бірінші нұсқа - қызанақ.
  • Екінші нұсқа - ит.
BERT неғұрлым жақсы дайындалған болса, оның екінші нұсқасы болып табылатын дұрыс нұсқаны таңдау мүмкіндігі соғұрлым жоғары болады.

Бұл оқыту әдісі SMITH-те де қолданылады.

SMITH үлкен құжаттарға оқытылады

SMITH неғұрлым жақсы дайындалған болса, оның жіберілген сөйлемдерді тану мүмкіндігі соғұрлым жоғары болады. Бұл BERT-пен бірдей идея, бірақ басқа қолданба. Бұл бөлім әсіресе қызықты, өйткені ол әлемді іздеу жүйесінің нәтижелері бар беттерге біріктірілген Google жасаған мазмұнмен бейнелейді. Әрине, пайдаланушылар кете алады, бірақ олай болмайды, өйткені Google нәтижелер бетіндегі барлық ең жақсы ақпарат көздерінен қысқа және ұзақ мазмұнды біріктіре алады.

Егер сіз бұған күмәнданатын болсаңыз, онда ол қазірдің өзінде басталғанын білуіңіз керек, және олар оны әлі игермеген болса да, бұл бастама.

SMITH BERT-тен жақсы ма?

Сіз оқығанның барлығында SMITH-ті жақсырақ деп болжауға болады, ал көптеген тапсырмаларда бұл шынымен жақсы. Бірақ интернетті бір сәтке қалай қолданатындығыңызды қарастырыңыз; іздеу сұрауларына үнемі қандай сұрақтар енгізіп отырасыз?
  • «Бүгін ауа райы қандай болады?»
  • «Мейрамханаға бару нұсқаулары».
Мұндай іздеу сұрауларына жауап беру үшін, әдетте, шектеулі және күрделі емес мәліметтермен қысқа мазмұн қажет. SMITH ұзақ және күрделі құжаттар мен ұзақ және күрделі іздеу сұрауларын түсінуге көбірек қатысады.

Бұған бірнеше құжаттар мен тақырыптардың жауабын жасау үшін біріктіру кіреді. Ол Google-ді көрсету үшін дұрыс нәрсені білуге ​​мүмкіндік беріп, мазмұнның қалай бөлінетіндігін анықтайды. Бұл Google-ге мазмұн беттерінің бір-бірімен қалай байланысты екенін түсінуге көмектеседі және сілтемелерді басқа артықшылықтар арасында бағалайтын шкаланы ұсынады.

Мұны айта отырып, біз BERT пен SMITH екеуінің де маңызды екендігімен аяқтаймыз және олардың екеуі де өздерінің ерекше мақсаттарына қызмет етеді.

Қорытынды

SMITH базука болғанымен, ол заттардың жиынтық күйін анық бейнелеу үшін бізге қажет. Ресурстарға қарағанда, бұл үлкенірек жұмыс жасайтындықтан, оның құны көп, бірақ сол жұмысты орындау кезінде оның бағасы BERT-тен әлдеқайда аз.

BERT SMITH-ке қысқа сұраулар мен мазмұнның ұсақ бөлшектерін түсінуге көмектеседі. Бұл дегенмен, Google басқа NLP алгоритмін жасамайынша, ол екеуін де алмастырады, содан кейін біз жылжып, SEO-дағы тағы бір жетістікке жетеміз.

SEO сізді қызықтырады ма? Біздің басқа мақалаларымызды тексеріңіз Semalt блогы.