Kompensacija Už Zodiako Ženklą
C Corserys Celobys

Sužinokite „Zodiac Sign“ Suderinamumą

Geriausios automatinės transkripcijos įrankiai žurnalistams

Technika Ir Įrankiai

Siri ką tik sukako šešeri. Alexai ką tik sukako treji. Jei galime telefonais pasiteirauti apie orą Albukerke ir priversti plastikinį cilindrą savo gyvenamajame kambaryje garsiai skaityti „Washington Post“, kodėl vis dar perrašome interviu ranka?

Na, pasirodo, mums tikrai nereikia. Automatinės transkripcijos įrankiai jau kurį laiką buvo rinkoje ir pagaliau tampa geri. Dabar garso ar vaizdo įrašų įkėlimas į svetainę ir gana išsamus nuorašas užtrunka vos kelias minutes ir kelis dolerius.

Tačiau, kaip ir visi įrankiai, kai kurie yra geresni už kitus. Išbandėme (arba bandėme išbandyti – daugiau apie tai vėliau) aštuonias populiariausias perrašymo priemones, skirtas žurnalistams, įskaitant Drakono diktatas , Laimingas Rašytojas , o Perrašyti , rekordiškai , Rev , Sonix , Trint ir „YouTube“. Kiekvieną įrankį išbandėme pagal įvairius realaus pasaulio scenarijus, eksperimentuodami, kaip kiekvienas iš jų atitiko įprastą žurnalisto naudojimą.

Nors nė vienas įrankis nebuvo tobulas, vienas iš jų buvo geriausias šioje kategorijoje.

Mūsų pasirinkimas
Dėl tikslumo, funkcijų ir naudojimo paprastumo „Trint“ yra geriausias pasirinkimas automatinei transkripcijai žurnalistams. Nors tai nebuvo pats tiksliausias, daugiausiai funkcijų turintis ar pigiausias mūsų išbandytas įrankis, jo nuorašo redagavimo įrankiai ir galimybė šiek tiek sklandžiau įsilieti į žurnalisto darbo eigą padeda jam įveikti konkurentus. Skaitykite toliau, kad pamatytumėte, kodėl.

Eksperimentas
Kaip matote, šių įrankių tikslumo rodikliai yra žemi. Taip yra todėl, kad iš visų jėgų stengėmės juos suklaidinti.

Pirma, kad atspindėtume daugybę žmonių, balsų ir akcentų, įrašėme pavyzdinį garso įrašą su keturiais dalyviais. Juose buvo:

  • Aleksijus Mantzarlis , Poynterio dėstytojas ir Tarptautinio faktų tikrinimo tinklo direktorius, kilęs iš Romos ir apibūdinęs save kaip žvalų ir „keltų juokingų žodžių, kuriuose susimaišo britų, italų ir keistų amerikiečių akcentai“.
  • saldžios puokštės , Tarptautinio faktų tikrinimo tinklo programos vadovas, rugsėjo mėnesį atvykęs į Poynterį iš Meksikos
  • Kristen Kiškis , „Poynter“ reporterė, kuri mano, kad klausydamasi savęs įrašuose skamba „šiek tiek slėnio mergaitiškai“.
  • Man, ir nors Kristen sakė, kad turiu „Buffalo akcentą“, manau, kad mano polinkis murmėti, kalbėti per greitai ir praleisti žodžių dalis tikriausiai yra sudėtingesnis transkripcijai (įrašyti save laukiant, kad būsiu perrašytas, akivaizdžiai atsiranda šiek tiek savęs atspindys.)

Kristen prisijungė prie mūsų per „Google Hangout“ / „YouTube Live“ ( atskleidimas: „Google“ naujienų laboratorijos dotacija iš dalies finansuoja mano poziciją ), dėl kurių dauguma automatinės transkripcijos įrankių atvirai įspėja. Atrodo, kad jiems sunku valdyti garsą iš telefono ar vaizdo pokalbio.

Norėdami dar labiau kankinti algoritmus, mes taip pat skaitome ištraukas daug greitesniu tempu, nei paprastai kalbame, Dulce ir Alexios kalbėjo įvairiomis užsienio kalbomis (italų, ispanų, prancūzų ir graikų), ištarėme kuo daugiau daiktavardžių (Apalachicola). , Michaelas Oreskesas ir įvairios Graikijos salos, pavyzdžiui, tik kelios), kūrybingai pradėjo naudoti Urban Dictionary (a Portmanteau Paulo Manaforto ir šiurkščiu žodžiu, apibūdinančiu jo teisinės padėties būklę) ir dažnai kalbėjosi vienas su kitu.

Įrašėme 14 minučių trukmės testą Poynterio internetinio seminaro studijoje ir mus pertraukė bent vieno garsaus lėktuvo garsas virš galvos (už kelių kvartalų yra oro uostas), greitosios pagalbos automobilis ir Kristen telefono ūžesys.

Garsą įrašėme trimis būdais:

  • Su Priartinimas H4nPro delninis mikrofonas, pastatytas tarp mūsų
  • Mano iPhone 6S Plus, naudojant įrašymo programą, esantį šalia mastelio keitimo
  • Su privačia „YouTube“ tiesiogine transliacija, todėl Kristen prisijungė prie mūsų

Tada įkėlėme garso įrašą į kiekvieną įrankį ir stebėjome, kiek laiko užtruko kiekvieno perrašymas. Normalizavome gautus nuorašus naudodami „Microsoft Word“, pašalinome laiko žymes ir įsitikinome, kad garsiakalbių vardai sutampa. Kaip valdiklį, aš pats perrašiau garsą (naudodamas „oTranscribe“) ir kelis kartus perklausiau, kad patikrinčiau, ar visiškai tikslumas. Taip pat išbandėme „Rev“ – mokamą paslaugą, kuri naudoja žmonių transkribavimo priemones, o ne algoritmus, kad pamatytume, kaip ji veikia.

Išbandėme įvairius dokumentų palyginimo įrankius, kad išsiaiškintume, kuris veikė geriausiai Copyscape kaip garsiausias pasirinkimas. Palyginome įrankių ir paslaugų sugeneruotus nuorašus su 100 procentų teisingu, kurį sukūriau naudodamas oTranscribe.

Keletas papildomų pastabų:

  • Garsas iš „Zoom“ pasirodė esąs geriausios kokybės, todėl jį naudojome daugeliui mūsų bandymų. Atrodo, kad programa Recordly nepriima garso, įrašyto iš kitų šaltinių, todėl tai yra viena šio proceso išimtis. Taip pat į „YouTube“ neįkėlėme „Zoom“ garso, o pasikliovėme „YouTube“ tiesioginio įrašo garsu. Obuolių ir apelsinų palyginimas daro šį eksperimentą mažiau nei mokslinį, bet labiau atitinkantį tai, kaip žurnalistai iš tikrųjų naudotų šias priemones realiame pasaulyje.
  • Nors tai populiarus įrankis, negalėjome išbandyti „Dragon Dictation“, nes jis neveikia „iOS 11“. Atnaujinsime šią apžvalgą, kai ir jei jos kūrėjas išspręs šią problemą.
  • Prieš išbandydami nesusisiekėme su jokia iš šių įmonių, todėl nebuvo jokio specialaus apdorojimo ar nuorašų užbaigimo. „Trint“, „Sonix“ ir „Recordly“ naujiems vartotojams siūlo ribotas nemokamas minutes, todėl eksperimentui pasinaudojome jomis. „Happy Scribe“ naudojome ne reporterio kolegos kredito kortelę ir nepaminėjome „Poynter“, nes anksčiau susirašinėjau su jos įkūrėjais. Ir sumokėjome visą kainą už Revo žmogaus transkripciją. „YouTube“ subtitrų paslauga ir „oTranscript“ visada yra nemokamos.
  • Yra daug, daug daugiau automatinio transkripcijos įrankių, kurių neįtraukėme į šią apžvalgą. Bandėme sutelkti dėmesį į tuos, apie kuriuos mūsų klausė žurnalistai. Jei manote, kad mes neteisingai praleidome vieną, praneškite mums ir mes atnaujinsime apžvalgą.

Nuorašo kokybė (nugalėtojas: Happy Scribe)

Tikslumo diagrama

Panašu, kad dirbtinio intelekto sukilimu susirūpinę žmonės turi dar bent keletą metų pasiruošti, nes mūsų išbandyta viena žmonių transkripcijos paslauga įveikė automatines transkripcijas.

Revas uždirbo 82 procentų tikslumo įvertinimą, o žmogiškajam vertėjui dažniausiai nepavyko susigaudyti užsienio kalbų (tai, tiesą sakant, yra atskira paslauga), kelių tikrinių daiktavardžių, kai kurių šnekų, kelių žargoninių žodžių ir murmėjimo gabalėlių. Nors kiti įrankiai taip pat dažniausiai to nepastebėjo, žmonės „Rev“ transkribuotojai bent jau atkreipė dėmesį į tokius dalykus kaip „[negirdimas]“ ir „[kryžiavimas]“ ir „[užsienio kalba]“, kurie buvo naudingi vietos žymekliai vėlesniems pataisymams.

Net jei trūksta bitų, Rev nuorašas yra visiškai skaitomas ir nuoseklus. Jei nebuvote šalia pradinio pokalbio, galite suprasti, apie ką kalbėjome, tiesiog jį perskaitę.

Kitas tiksliausias transkripcija buvo „YouTube“. Vaizdo įrašų prieglobos svetainė automatiškai sukūrė mūsų „YouTube“ tiesioginio vaizdo įrašo antraštes, kurių tikslumas buvo 72 proc. Tačiau net ir sumažėjus bendrajai kokybei tik 10 procentų, nuorašas žymiai mažiau skaitomas nei „Rev“, nes „YouTube“ nepateikia skyrybos ženklų ar garsiakalbių segmentavimo. Antraštės egzistuoja kaip didžiulis teksto blokas. Nesusiejus jo su garso įrašu, pokalbyje nedalyvavęs žmogus galėtų suprasti mūsų pokalbį.

Yra ir kitų „YouTube“ pasiūlymų trūkumų, tačiau apie juos pakalbėsime, kai pereisime prie funkcijų.

„Happy Scribe“ pasirodė esąs tiksliausias skirtas ne žmonėms skirtas transkripcijos įrankis, kurio tikslumas mūsų eksperimente buvo 62 procentai. Įrankis savo įkėlimo puslapyje įspėja „vengti stipraus foninio triukšmo, „vengti ryškių akcentų“, „vengti interviu „Skype“ ir telefonu“ ir „laikyti mikrofoną arti garsiakalbio“ – visa tai mes pareigingai ignoravome.

Nuorašas yra beveik tikslus tose vietose, kur kalbėjau, ypač kai nebuvo jokio šnekėjimo ir aš nevartojau tinkamų daiktavardžių, bet sunkiai perrašiau Dulce, Kristen ir Alexios. Kai kuriose vietose jis suskaidė skirtingus kalbėtojus į naujas pastraipas, bet kitur nepavyko. Bendras nuorašas skiriasi: kai kuriose vietose jis yra visiškai nuoseklus, o kitur – keistai nenuoseklus, pvz., kai perrašomas Aleksejus, sakydamas „leisk man atidaryti miesto žodyną ir mes galėsime perskaityti kai kuriuos iš jų“ kaip „Aš turiu galvoje, net miesto žodyne merginos yra artimos. .

Trint pasiūlė panašius rezultatus – 61 procento tikslumu. Daugelyje tų pačių vietų jis sujaukė, klaidindamas akcentus, garsą iš „YouTube“ ir skyrelius su skersiniu ar tyliu kalbėjimu. Tačiau jis nebuvo klaidingai perrašytas taip pat, kaip „Happy Scribe“. Miesto žodyno sakinys iš viršaus pasirodė kaip „Aš turiu galvoje, kad net miesto žodyne galime juos perskaityti“.

Apskritai, Trint nuorašas yra šiek tiek lengviau skaitomas nei Happy Scribe, nes jis geriau atskiria kalbėtojus ir suskirsto juos į naujas pastraipas. Tai nėra tobula, bet prideda daug aiškumo, kai veikia.

„Sonix“ pasirodė esąs kitas tiksliausias – 50 proc. „Sonix“ veikė šiek tiek geriau nei „Happy Scribe“ ir „Trint“, kai vienas garsiakalbis kalbėjo garsiai. Tačiau bet koks pokalbis, foninis triukšmas ar net juokas – visa tai, kas greičiausiai atsiras naudojant įrankį realiame pasaulyje – atrodė, kad jį supainiojo labiau nei kitus. Miesto žodyno sakinys buvo užfiksuotas kaip „Atidaryti miesto žodyne ir mes galime peržiūrėti kai kuriuos iš jų“.

Kaip ir kiti įrankiai, „Sonix“ bandė suskirstyti garsiakalbius į skirtingas pastraipas, tačiau atrodė, kad tai šiek tiek blogiau.

Rekordiškai buvo mažiausiai tikslus iš automatinio transkripcijos įrankių – 48 procentų tikslumu. Jame buvo užfiksuotas miesto žodyno sakinys: „Leiskite man atidaryti tą miesto žodyną ir mes galime. Pereikite kai kuriuos“, o tai nėra blogai, bet ta teksto dalis neatspindi likusios nuorašo dalies. Kaip ir „YouTube“, „Recordly“ nuorašas yra vienas milžiniškas teksto blokas. Skirtingai nei „YouTube“, ji prideda skyrybos ženklų, nors ir rečiau ir mažesniu tikslumu nei kiti įrankiai.

„Recordly“ nuorašas yra mažiausiai naudingas iš konteksto.

Apskritai, geriausia nuoraša buvo mano paties ranka naudojant „oTranscribe“. Rev pasirodė geriausias nuorašas, kurio man pačiam nereikėjo perrašyti. Tačiau tai yra automatinio transkripcijos įrankių apžvalga, o toje kategorijoje „Happy Scribe“ vos pralenkė Trintą, kad pasiektų aukščiausią vietą.

Funkcijos (nugalėtojas: Sonix)
Atrodo, kad keli dalykai yra automatinio transkripcijos įrankių pramonės standartai. Galimybė atkurti įkeltą garsą yra akivaizdi. Visi įrankiai leidžia vartotojams eksportuoti nuorašus įvairiais formatais.

Naršyklės įrankiai (tai reiškia, kad visi, išskyrus Recordly) taip pat siūlo bendrą rinkinį. Visi jie leidžia vartotojams spustelėti įvairius teksto taškus ir pereiti tiesiai prie tos įrašo dalies. Jie visi turi parinkčių atkurti garsą lėčiau (sparčiaisiais klavišais arba naršant nustatymus), rankiniu būdu redaguoti nuorašus, įkelti vaizdo įrašus be garso ir saugoti nuorašus vėlesniam naudojimui.

„Trint“ žengia dar vieną žingsnį ir stenogramos apačioje pateikia vizualizuotą garso bangos formą, kurią vartotojai gali praleisti savo nuožiūra. Jame taip pat yra integruotų įrankių, skirtų tekstui rasti ir pakeisti, paryškinti arba išbraukti. Vartotojai gali pridėti garsiakalbių sąrašą prie įrankio ir prie kiekvienos pastraipos pridėti savo pavadinimą. Jame taip pat yra patogi funkcija vienu spustelėjimu siųsti stenogramą el. paštu.

„Sonix“ turi visus šiuos įrankius (išskyrus interaktyviąją bangos formą) ir dar keletą. Labiausiai naudingos yra „pasitikėjimo spalvos“, kurios priskiria skirtingas spalvas žodžiams, kuriais Sonix yra mažiau pasitikintis; garso kokybės vertintojas, rodantis, kaip Sonix pasitiki savo transkripcija; ir automatinis garsiakalbių identifikavimas – beta funkcija, kuri bando atpažinti įvairius garsiakalbius ir priskirti jiems ID.

Mūsų bandymo metu „Sonix“ nustatė tik du skirtingus garsiakalbius, todėl šiam įrankiui reikia šiek tiek padirbėti, tačiau jis vis tiek labai naudingas.

Vienintelė programėlė (tik iOS) siūlo mažiausiai funkcijų. Tai beveik įrašymo ir laukimo patirtis. Nuorašas pateikiamas formatu, panašiu į Apple integruotą užrašų programą, su ribotomis redagavimo funkcijomis. Tai taip pat leidžia vartotojams eksportuoti garsą ar tekstą į kitą programą.

Nors „Trint“ paieškos ir keitimo bei bangos formos funkcijos yra naudingos taisant nuorašus, „Sonix“ funkcijos suteikia transkripcijos proceso skaidrumą. Ir nors garsiakalbių identifikavimo beta versija nėra visiškai patikima, tai ambicingas įrankis, kuris turėtų tik tobulėti.

Laikas (nugalėtojas: Happy Scribe, Trint ir rekordiškai)

laiko diagrama

Štai kur šviečia automatinė transkripcija. Visi įrankiai pateikė nuorašą per mažiau minučių nei mūsų pateikto garso failo ilgis. Skirtumas tarp Happy Scribe (penkios minutės), Trint (šešios minutės) ir Recordly (šešios minutės) buvo nereikšmingas, tačiau Sonix užtruko šiek tiek ilgiau (11 minučių). (Atnaujinimas: „Sonix“ atstovas pasiekė, kad jo greitis atitinka kitus įrankius, kai garsiakalbio identifikavimo funkcija išjungta.) Realioje aplinkoje tai gali būti esminis skirtumas, ypač naudojant ilgesnes transkripcijas.

„YouTube“ čia yra šiek tiek paslaptis. Šiam nuorašui prireikė vos kelių minučių, kol pasirodė automatiniai subtitrai. Iš ankstesnės patirties pastebėjome, kad laikas, per kurį jie pasirodys, gali labai skirtis. Kadangi „YouTube“ iš tikrųjų nėra skirta naudoti tokiu būdu, nesame tikri, kiek laiko tai paprastai užtrunka.

Prireikė maždaug keturių valandų ir 15 minučių, kol Revo transkribuotojai baigė savo nuorašą. Man prireikė maždaug pusės to, kad galėčiau tai padaryti pats su oTranscribe, bet ne be kelių pertraukų, „Spotify“ Gilus dėmesys grojaraštis ir du galonai kavos.

Kainos (nugalėtojas: rekordiškai)

išlaidų diagrama

Negalite įveikti nemokamo („YouTube“, „oTranscript“), bet kai kalbama apie specialius automatinio transkripcijos įrankius, kaina labai skiriasi. Norėdami nustatyti geriausią kainą, turite apsvarstyti, kaip dažnai naudosite įrankį.

„Sonix“ yra brangiausias, jo bazinis planas prasideda nuo 15 USD per mėnesį ir 8 USD už kiekvieną transkribuoto garso valandą. Tačiau įrankis siūlo didelę 33 procentų nuolaidą mokant kasmet, o ne kas mėnesį.

„Trint“ taip pat siūlo planus, pradedant nuo 15 USD per valandą už mokamą įkėlimą transkripciją arba nuo 40 USD per mėnesį už iki trijų valandų transkribuotą garso įrašą. Papildomos transkripcijos kainuoja šiek tiek į šiaurę nuo 13 USD per valandą.

„Happy Scribe“ kainuoja 10 centų už minutę įkelto garso. Mažiau į matematiką linkusiems tipams tai yra 6 USD per valandą.

Už menką 2 USD per valandą, o pirmoji valanda nemokama, „Recordly“ yra pati pigiausia automatinės transkripcijos parinktis.

Nenuostabu, kad „Rev“ žmonių transkribuotojai kainuoja daugiau nei kiti įrankiai. Mūsų 13 minučių trukmės klipas perrašymas kainavo 14 USD, o už laiko žymas sumokėjome 3,50 USD daugiau. Vis dėlto pigios santykinės darbo valandų sąnaudos verčia mus susimąstyti, kur pasaulyje yra Revo transkribuotojai ir kaip jiems atlyginama.

Lengvas naudojimas (nugalėtojas: Trint)
Nė viena iš šių priemonių nėra sudėtinga naudoti. Į kiekvieną įkeliate failą (arba įrašote su juo garsą, „Recordly“ atveju), o po kurio laiko jis siunčia nuorodą į redaguojamą nuorašą.

„Trint“ žengia didelį žingsnį už failų įkėlimo ir priima garso ar vaizdo įrašus iš įvairių šaltinių, įskaitant „Dropbox“, „Google“ diską ir FTP, ir netgi leidžia vartotojams tiesiog įvesti nuorodą. Tai unikalu tarp mūsų išbandytų įrankių. Trint taip pat užduoda keletą naudingų klausimų apie foninį triukšmą, kryžminį pokalbį ir dar daugiau prieš įkeliant. Tai nepataisys įrašo, bet yra naudingas UX patarimas, mokantis vartotojus, kaip ateityje įrašyti daugiau perrašomo garso.

„Happy Scribe“, „Rev“, „Sonix“ ir „Trint“ siunčia el. laiškus, kai transkripcija paruošta, todėl nereikia sėdėti ir žiūrėti į ekraną.

Esmė
Tai nėra pati pigiausia ir nėra pati tiksliausia bendros transkripcijos parinktis, tačiau Trint iškovojo pergalę kaip geriausias universalus įrankis iš tų, kuriuos išbandėme.

Vos daugiau nei metus skaičiuojanti įmonė, gavusi Riterio fondo finansavimą (atsisakymas: Poynter taip pat gauna finansavimas iš Knight) ir Google skaitmeninių naujienų iniciatyva, siūlo geriausią bendrą funkcionalumo, tikslumo ir naudojimo paprastumo derinį.

Tik „YouTube“ automatinio subtitrų funkcija, kurios tikslumas siekė 72 procentus, buvo daug geriau nei „Trint“ naudojant algoritmo pagrįstą transkripciją. Tačiau „YouTube“ nėra sukurta tokiam perrašymui, kokio žurnalistams reikia kasdien, ir nesiūlo jokių redagavimo funkcijų.

Nors jaunam startuoliui „Happy Scribe“ mūsų tikslumo testuose sekėsi šiek tiek geriau – 62 proc. rodiklis ir kainuoja maždaug trečdaliu „Trint“ kainos, jame trūksta daugelio papildomų funkcijų, kurios daro „Trint“ naudingą. Galimybė įkelti iš daugelio šaltinių, rasti ir pakeisti tekstą ir garsiakalbio identifikavimą yra nedideli, bet svarbūs darbo eigos įrankiai. Jei tik ieškote greito ir nešvaraus nuorašo, „Happy Scribe“ gali būti tinkamas būdas.

Ir nors tiesa, kad jo 61 procentas toli gražu nėra tobulas, mūsų bandymai buvo šiek tiek sunkesni nei dauguma realaus pasaulio.

Taip pat išbandėme žmonėms skirtą vertimo paslaugą „Rev“ ir „oTranscribe“, kuri siūlo patogius įrankius žurnalistams patiems perrašyti garsą. Kai buvo perrašytas 1 USD už minutę, nustatėme, kad „Rev“ yra per brangus paprastam žurnalistui reguliariai naudoti. Ir nors „oTranscribe“ buvo patogu, ji neišsprendžia perrašymo nuobodulio ir laiko.

Turint omenyje tipinius naudojimo būdus, „Trint“ yra geriausia visapusiška automatinio transkripcijos priemonė žurnalistams.

Pataisymas: anksčiau pranešėme, kad „Sonix“ ne pasiūlymas rasti ir pakeisti įrankį, bet iš tikrųjų tai daro. Atsiprašome, kad praleidome.

Sužinokite daugiau apie žurnalistikos įrankius naudodami Išbandykite tai! — Žurnalistikos įrankiai. Išbandyti šį! yra maitinamas „Google“ naujienų laboratorija . Ją taip pat palaiko Amerikos spaudos institutas ir John S. ir James L. Knight fondas