§

Liƙa ko rubuta

§

Metrics

Haruffa 0
Haruffa (ba sarari ba) 0
Kalmomin 0
Jimloli 0
Sakin layi 0
Lokacin karatu
Lokacin magana
§

Options

§

Kalmomin da aka fi amfani da su

# Kalma Adadi Maimaitawa

Masu rubutu a Najeriya da faɗin Afirka ta Yamma suna ƙidaya kalmomin don dalilai da yawa — tabbatar da takaddama ta makaranta ta kasance a cikin iyakarta, auna kwafin tallan don iyakokin haruffa na kafofin sada zumunta, ko tsara jawabi kafin wata bikin. Kayan aikin yana yin aiki daidai akan Hausa mai adon haruffa (ɓ ɗ ƙ ƴ) da sauran yarukan Afirka, kuma yana fitar da sakamakon da marubucin asali zai sa ran gani.

Yaya ake ƙidaya kalmomin?

Wannan kayan aiki yana ƙidaya kalmomin ta amfani da API ɗin Intl.Segmenter na gida na mai bincike (Chrome 87+, Firefox 125+, Safari 14.1+) lokacin da yake samuwa, wanda ke sarrafa duk rubutu — Latin, Sinanci, Larabci, Devanagari, Jafananci, Koriya, Cyrillic — tare da iyakokin kalma masu daidai ta harshe da aka samo daga Unicode CLDR. Lokacin da Intl.Segmenter bai samuwa ba, yana komawa zuwa bayyanawa ta yau da kullun mai fahimtar Unicode (/\p{L}+/gu) wanda ke daidaita duk gudu na haruffa na Unicode. Yawancin kayan aikin da ke gasa suna raba a kan sarari na ASCII kuma suna lissafin komai waje da rubutun Latin ba daidai ba; wannan ba sa yi.

Yaya ƙidaya ke aiki

Mataki shida suna faruwa a cikin mai bincike a kowane buga-maballin. Babu ɗayansu da ke taɓa cibiyar sadarwa. Duka tsarin yana gudana a ƙasa da millisecond ɗaya don shigarwa ta tsayin sakin layi ta yau da kullun kuma yana sarrafa rubutun kalmomin 100,000 ba tare da barin firam ba.

  1. Ana karanta rubutunka daga textarea ana kiyaye shi a cikin ƙwaƙwalwar mai bincike — babu abin da ke barin na'urarka.
  2. Ƙidayan haruffa yana amfani da mai buɗewa na JavaScript ([...text].length) don ƙidaya ɗigon lambar Unicode, don emoji kamar 🙂 su ƙidaya a matsayin haruffa 1 ko da yake ƙidayarsu ta ciki ta UTF-16 ta bambanta.
  3. Ƙidayan kalmomin yana dogara akan Intl.Segmenter tare da granularity: 'word', tace zuwa sassa inda isWordLike yana gaskiya. Rubutun Sinanci da Jafananci inda kalmomin ba a raba da sarari suna ƙidaya ɓangare ɗaya a kowane harafi.
  4. Ƙidayan jimloli yana amfani da Intl.Segmenter tare da granularity: 'sentence', wanda ke sarrafa gajertawa, ellipses, da lokuta na alamomi mafi kyau fiye da raba na aya mai sauƙi.
  5. Ƙidayan sakin layi yana raba a kan layukan fanko ɗaya ko fiye (\n\s*\n) kuma yana tace sassa fanko.
  6. Lokacin karatu da magana suna raba ƙidayan kalmomin ta hanyar ƙimar WPM da aka tsara (tsohuwa: 200 karatu, 130 magana) kuma suna tsara sakamakon a matsayin mintoci da dakiƙa.

Me ya sa ƙidaya kalmomin?

  • Iyakokin rubutu da takaddama. Tambayoyin jami'a suna iyakance takardar mutum zuwa kalmomin 650 (Common App), kalmomin 500 (yawancin takardar UCAS ta UK), ko haruffa 4,000 tare da sarari. Sanin ƙidayarka kafin ka tura yana nufin babu yanke na ƙarshe-minti a ƙarƙashin matsin lamba.
  • SEO da tsara abun ciki. Ƙungiyoyin ingancin bincike suna amfani da ƙidayan kalmomin a matsayin makiyaya daidai na zurfin batu, kuma shafukan masu tsawo tsakanin kalmomin 1,500 da 2,500 koyaushe suna mamaye rubutu ƙanƙana don tambayoyin masu gasa. Bin diddigin ƙidayarka yayin da kake tsara yana kiyaye daftarori a wannan kewayo ba tare da ƙara ba.
  • Girman kafofin sada zumunta. X yana iyakance rubutu a haruffa 280, labarun LinkedIn a 110,000, bayanan Instagram a 2,200, da bayanin meta a kusan 160. Tile ɗin haruffa yana nuna maka adadi daidai kafin ka liƙa cikin editan dandali ka gano ya yanke.
  • Estimates na fassara da gabatarwa. Lokacin karatu a 200 WPM yana daidaita karatu mai shuru na matsakaici; lokacin magana a 130 WPM yana daidaita isar da tattaunawa. Yi amfani da duka biyun don girman sashin podcast, tsara jawabi na minti 5, ko ƙiyasta lokacin labaru kafin taron rikodin.

Amfani na gama-gari

Ƙidayan kalmomin da haruffa yana bayyana a duk rubutu, abun ciki, da ayyukan haɓakawa, kuma injin mai fahimtar Unicode na kayan aikin yana da mahimmanci musamman don ƙungiyoyin da ke tura abun ciki a cikin harsuna fiye da ɗaya:

  • Rubutu na ilimi: bin diddigin ci gaba zuwa maƙasudin babi na kundin digiri ko tabbatar da taƙaitawa ta kasance a cikin iyakar haruffa na mujallar kafin gabatarwa.
  • Kwafin tallan da UX: auna layin batun, taken jarumi, ko lakabi na maɓalli na CTA akan kasafin haruffa da mai zane ɗinka ya sanya a Figma.
  • Rubuta jawabi da podcast: canza rututu zuwa tsawon da ake sa ran saboda don sanin ko babban taron yana gudana tsawo kafin ranar maimaitawa.

Yaya misali na ƙidayan kalmomin ke kama?

Ka ɗauki wannan samfurin sakin layi uku. Dawakin fox mai ruwan ƙasa mai sauri yana tsallakawa bisa kare mai ƙyuya. Jimlar da ke sama pangram ce — tana ɗauke da kowane harufi na haruffarukin Ingilishi, shi ya sa masu dab'i da masu zanen fonta suke amfani da ita don duba nau'in fonta. Pangrams sun koma aƙalla ƙarni na 19, lokacin da masu gudanar da telegraph suka yi amfani da gajeren jimloli cikakkan haruffa don gwada daidaitaccen watsa. Yau suna bayyana a cikin samfuran fonta, gwajin keyboard, da rubutun wuri na tsoho na kowane app ɗin zane daga Figma zuwa InDesign. Liƙa wannan cikin shigarwa kuma tiles ɗin ma'aunin suna ba da rahoto: kalmomin 71, haruffa 410 tare da sarari, haruffa 340 ba tare da sarari ba, jimloli 4, sakin layi 3, lokacin karatu na kusan daƙiƙa 21 a 200 WPM, da lokacin magana na kusan daƙiƙa 33 a 130 WPM. Panel ɗin kalmomin-da-aka-fi-amfani yana tsallaka stopwords kamar the da a kuma yana fallasa kalmomin abun ciki da ke mamaye — a nan, pangram, letter, da sentence. Canza zuwa rubutun Sinanci, Larabci, ko Hindi kuma kowane tile yana sake lissafin bisa ga ƙa'idodin raba rubutu na rubutun nasa.

Yaya ake ƙidaya kalmomin?

A cikin mai bincike da ke goyon bayan Intl.Segmenter (Chrome 87+, Firefox 125+, Safari 14.1+) kayan aiki yana amfani da new Intl.Segmenter(locale, { granularity: 'word' }) kuma yana ƙidaya sassa inda isWordLike yana gaskiya. Wannan yana sarrafa Sinanci, Jafananci, Larabci, Devanagari, da duk sauran rubutun Unicode daidai. A cikin tsofaffin mai bincike fallback regex /\p{L}+/gu yana daidaita duk gudu na haruffa na Unicode, wanda yana aiki da kyau don yarukan rubutun Latin amma yana ɗaukar dukan kalmar Sinanci ko Jafananci a matsayin ɓangare ɗaya ko da yake babu sarari.

Me ya sa ƙidaya ya bambanta da MS Word?

Algorithm na ƙidayan kalmomin na Microsoft Word na mallaka ne kuma yana sarrafa haɗin kalmomin na saɓawa, takaitawa, da haruffa na musamman daban-daban a cikin nau'uka. Wannan kayan aiki yana ƙidaya "ba'a" a matsayin kalma ɗaya (ɓangare ɗaya na isWordLike), yayin da Word zai iya ƙidaya shi a matsayin biyu. Don yawancin rubutu ƙidaya suna yarda a cikin 1-2%; don rubutu mai saɓawa suna iya bambanta ƙari. Ƙidayan haruffa koyaushe suna yarda lokacin da rubutun tushe shine iri ɗaya na kirtanin UTF-8.

Shin wannan yana goyon bayan rubutun da ba Latin ba (Sinanci, Larabci, Cyrillic)?

Ee. API ɗin Intl.Segmenter yana mai fahimtar Unicode ta halitta. Larabci da Hebrew (rubutun dama-zuwa-hagu) suna ƙidayawa daidai; Cyrillic da Giriki suna ƙidayawa a matsayin rarrabuwar iyakar kalma irin na Latin na yau da kullun; Sinanci da Jafananci suna ba da rahoto da ɓangare mai kama da kalma ɗaya a kowane harafi saboda waɗancan tsarin rubutu ba sa amfani da sarari tsakanin kalmomin. Ƙidayan haruffa (ta amfani da [...text].length) koyaushe yana ƙidaya ɗigon lambar Unicode ko da wane rubutu, don emoji, haruffa na CJK, da haruffa na Latin masu laɓe duk suna ƙidayawa a matsayin 1.

Shin ana lodawa rubutuna?

A'a. Kowane lissafi yana gudana a cikin tab ɗin mai bincike ta amfani da APIs na JavaScript na asali. Babu abin da ake aika zuwa uwar garken Ultim8Soft ko kowane sabis na ɓangare na uku. Kana iya tabbatar da wannan ta hanyar buɗe DevTools na mai bincike, sauya zuwa tab ɗin Network, share log ɗin, rubuta cikin shigarwa, ka tabbatar cewa buƙatun cibiyar sadarwa sifili suna bayyana don mataki na ƙidayawa.

Wannan mai ƙidayar kalmomin yana gudana gaba ɗaya a cikin mai bincike. Babu lodawa, babu asusun, babu ɗakin karatu na vendor, babu analytics a kan rubutun da aka ƙidaya. Liƙa kowane rubutu a kowane rubutu, duba tiles ɗin ma'aunin bakwai suna sabuntawa yayin da kake rubuta, ka kwafi abin da kake buƙata. Duka kayan aikin kusan 12 KB na JavaScript ne da ke lodi sau ɗaya kuma yana aiki a waje da cibiyar sadarwa bayan ziyara ta farko.