трънки и блогинки

На руски ли е?

Написано на: 28.03.2012 · 5 коментара

Няколко регулярни израза за определяне дали един кирилски текст е написан на руски. Може да ги ползвате за хващане на руски спам или като елементарен начин за автоматично определяне на езика.

Категория: мини

5 коментара ↓

  • Хубаво ми е, когато хората коментират. Чета внимателно всеки коментар и отговарям, когато имам какво да кажа.

  • gamar на 28.03.2012г. в 20:39ч.

    Идеи, как да се ограничи спам, без да се ограничава напълно латиницата (за термини, наименования и т.н.).

    До известно време изискването да има поне един символ на кирилица работеше, но тарикатите вече сменят латински символ с аналогичен кирилски (напр. а, о, у и т.н.) и спамът минава.

  • Спас Колев на 29.03.2012г. в 10:51ч.

    Също в руския „ъ“ никога не е в началото на думата и по принцип трябва винаги да е пред гласна (не съм сигурен за транскрипциите от китайски – там го ползват като разделител на сричките в двусмислени ситуации).

  • пейо на 29.03.2012г. в 11:01ч.

    @ gamar
    Аз бих опитал да търся уникален за кирилицата символ. В зависимост от обема на текста, този метод може и да сработи

    @ Спас Колев
    Много благодаря, ще го проверя срещу корпусите които имам и ще го допълня.

  • Маркуча на 29.03.2012г. в 13:01ч.

    Добави и правило за единично Б по аналогия с Ж и К, напр.: «Если б я бьıл султан // я б имел трех жен». Проверка за Ь, следвано от İ или I, също би била полезна.

  • Michel на 29.03.2012г. в 13:06ч.

    За спама най-добрата защита е „колко прави 2+1“ или „пет плюс четири“, има го като плъгин за WordPress…

    Защо работи? Защото спамботовете не могат да смятат. Не само това, може и да питаш един спам бот, какъв цвят е тревата, няма да може да ти отговори. Такива елементарни защити са около 99.999% надеждни, няма значение, дали спамбота се опитва да спами на кирилица или латиница, и не пречат и на читателите на блога, тъй като не изискват въвеждането на сложни поредици от цифри и букви, които трябва да се разчетат от размазани (нарочно) изображения (това са CAPTCHA гадостите, тоест).

    Принципно, има и още по-прости защити от спам, но не всички работят…

    В моя около 5+ годишен опит с WP, единствено „2+1“ и подобни, се показаха около почти 100% надеждни като защита… :)