трънки и блогинки

За какво говори Георги Първанов

Написано на: 15.02.2007 · 15 коментара

Написах малък скрипт, който да брои повторенията на думите в даден текст. Любопитно ми е да разбера върху какво акцентират държавниците ни в изказванията си, но се оказа, че само Президентът се старае да запази казаното от него. Интересно ми беше, но не успях да намеря текстове на речи и изказвания на Бойко Борисов и Волен Сидеров, за да мога да извлека същината им.

Ето опит за визуализиране на най-използваните думи от нашия Президент:
President tagcloud

Уж, България води като тема, но различните форми на споменавания на Европа я превъзхождат като брой. Впечатление ми направи и това, че „към“ и „трябва“ водят при най-често споменаваните думи. Ако имате идеи и набор от изказвания на други общественици – ще съм ви благодарен да ми ги предложите.

Допълнение: Васил Бадев бе така находчив да използва Google, за да претърси стенограмите в сайта на НС за изказвания на лидера на „Атака“ и може сами да видите колко по-експресивен е В. Сидеров:
Volen tagcloud

Категория: проекти

15 коментара ↓

  • Хубаво ми е, когато хората коментират. Чета внимателно всеки коментар и отговарям, когато имам какво да кажа.

  • Димитър Василев на 16.02.2007г. в 00:14ч.

    Пейо, може ли да те помоля да ми пратиш скрипта?
    Пиша дипломна работа на social network analysis и ми трябва точно такова нещо.
    Обещавам после да я пусна под CC като се дипломирам.
    Знаеш как да ме намериш.
    Благодаря.

  • Жени на 16.02.2007г. в 00:20ч.

    Пейо, тази ти идея безкрайно много ме забавлява!
    Ще ми е интересно да споделиш резултатите и от други изказвания :о)

  • пейо на 16.02.2007г. в 00:29ч.

    @ Димитър Василев
    To ме е срам да го покажа и затова не съм дал код, но го имаш на пощата си и сам ще видиш.

    @ Жени
    Безкрайно ми е забавно да те забавлявам безкрайно :-) Дай други изказвания – трябва да има много думички, за да се получи добра картинка. Примерно на Първанов това е картинка от половин мегабайт текстови файл.

  • kill_u на 16.02.2007г. в 08:38ч.

    Скоро в монитор четох подобен текст, може от там да ти е хрумнало но там бяха броени фразите на Путин, Буш и други западни политици. Сега ще потърся и ще пратя линк

  • ardoyne на 16.02.2007г. в 09:55ч.

    ето линка към presidential speeches tag cloud-a nа бушмена: http://chir.ag/phernalia/preztags/

    има и линк към скрипт… който обаче е copyrighted…..

    btw, не ми се вярва президентът да не е казвал „български“, „българска“, „българско“. тогава бих сравнявал с „европа“ и „европейски“. а дали може да се види колко пъти е казвал съответната дума?

  • Z. Naumov на 16.02.2007г. в 10:50ч.

    Здравей Пейо,
    аз искам да внеса малко пояснения за речите на политиците.(от моя гледна точка,разбира се).
    Първанов запазва казаното от него поради факта, че преди да произнесе всяка своя реч, тя му бива изготвена, написана и редактирана от неговия екип. В този смисъл това не са негови думи (като изключим факта,че преди да я прочете публично, Първанов я преглежда), а думи внимателно подбрани от „PR“ екипът му. Замисли се само, колко от публичните изказвания на Президента не са били „публично прочетени“ от него. Техниката за акцента на изказванията се ръководи именно от този екип, а не от Г.Първанов.
    Колкото до В. Сидеров и Б.Борисов – техни речи няма да намериш, защото никой не им ги пише ;)

  • пейо на 16.02.2007г. в 11:21ч.

    @ kill_u
    Идеята по никакъв начин не е нова. Има си и отделни модули и доста разработени инструменти за анализ на текст. Има perl, дори :-) Но все пак ще е интересно да видя резултатите и от други такива изследвания.

    @ ardoyne
    Ето резултатите, след като добавих още изказвания. Имай предвид, че са махнати думите с два или по-малко символа и следните местоимения: ’като’, ’които’, ’който’, ’която’, ’където’, ’това’, ’тази’, ’този’:

    [българия] => 136
    [европейския] => 110
    [съюз] => 97
    [към] => 95
    [трябва] => 71
    [има] => 70
    [много] => 68
    [ние] => 62
    [всички] => 56
    [бъде] => 55
    [защото] => 55
    [най] => 52
    [нашите] => 52
    [един] => 50
    [още] => 44
    [може] => 43
    [европа] => 43
    [политика] => 42
    [със] => 42
    [сме] => 39
    [само] => 39
    [страна] => 38
    [години] => 37
    [една] => 37
    [тези] => 37
    [което] => 37
    [съм] => 37
    [във] => 36
    [при] => 36
    [повече] => 35
    [през] => 35
    [хората] => 34
    [искам] => 32
    [уважаеми] => 32
    [година] => 32
    [институции] => 32
    [важно] => 31
    [нашата] => 30
    [ако] => 29
    [без] => 29
    [както] => 29
    [беше] => 29
    [вече] => 28
    [партньори] => 28
    [региона] => 28
    [господа] => 27
    [европейски] => 26
    [когато] => 26
    [дума] => 26
    [своята] => 26
    [сигурност] => 26
    [нас] => 26
    [особено] => 25
    [решения] => 25
    [имаме] => 25
    [институция] => 25
    [няма] => 25
    [част] => 25
    [членството] => 24
    [всичко] => 24
    [тук] => 24
    [преди] => 24
    [днес] => 24
    [госпожи] => 24
    [българската] => 23
    [или] => 23
    [европейската] => 23
    [усилия] => 23
    [европейските] => 23
    [увреждания] => 23
    [сънародници] => 22
    [президентската] => 22
    [става] => 22
    [своите] => 22
    [така] => 22
    [обаче] => 21
    [сега] => 21
    [добре] => 21
    [политически] => 21
    [възможности] => 21
    [балканите] => 21
    [страните] => 20
    [какво] => 20
    [страната] => 20
    [между] => 20
    [вярвам] => 20
    [български] => 20
    [проблемите] => 19
    [ясно] => 19
    [кажа] => 19
    [въпрос] => 19
    [всеки] => 19
    [други] => 19
    [можем] => 19
    [някои] => 18
    [усилията] => 18
    [своя] => 18
    [нещо] => 18
    [отношения] => 18
    [страни] => 18
    [солидарност] => 18
    [време] => 18
    [общество] => 17
    [пред] => 17
    [подкрепа] => 17
    [развитието] => 17
    [бяха] => 17
    [вас] => 17
    [интерес] => 17
    [бих] => 16
    [българския] => 16
    [държава] => 16
    [политиката] => 16
    [смятам] => 16
    [процес] => 15
    [българските] => 15
    [бъдат] => 15
    [съюза] => 15
    [енергетика] => 15
    [развитие] => 15
    [разбира] => 15
    [мандат] => 15
    [важен] => 15
    [история] => 15
    [бизнес] => 15
    [онези] => 15
    [господин] => 14
    [съседи] => 14
    [редица] => 14
    [конкретни] => 14
    [позиция] => 14
    [казвам] => 13
    [целия] => 13
    [институциите] => 13
    [нова] => 13
    [онова] => 13
    [другите] => 13
    [югоизточна] => 13
    [активно] => 13
    [диалог] => 13
    [винаги] => 13
    [заради] => 13
    [проблеми] => 13
    [отношение] => 13
    [рамките] => 13
    [все] => 12
    [мен] => 12
    [членки] => 12
    [нови] => 12
    [структури] => 12
    [съмнение] => 12
    [приятели] => 12
    [българите] => 12
    [отношенията] => 12

    @ Z. Naumov
    Благодаря за поясненията. Вероятно това е нормално и вероятно би имало и добър набор от речи на Станишев, но не очаквах думата на Лидерите така да се пилее и да няма никакво старание да се увековечи. Поне на Волен трябва да стоят изказванията в НС.

  • ardoyne на 16.02.2007г. в 11:44ч.

    благодаря! любопитно, определено! :)

    и що повече се е обръщал към господата, отколкото към госпожите… :)

    като гледам споменаванията, по-скоро бих поспорил върху твърдението, че повече говори за европа, отколкото за българия. но пък не бих спорил с думи извадени от контекста :)

  • Grimm на 16.02.2007г. в 11:52ч.

    Пейо, интересно би било да се да се види, кои думи най-малко или изобщо НЕ се употребяват в някакъв текст – реч, публикация…
    Естествено, нямам в предвид всички думи от съответния език, а тези които са свързани с темата, но не се употребяват. Например не е нужно да се покаже, че думата ‘прасе’ не се употребява в речите на президента, защото той не говори по селскостопански въпроси или въпроси свързани с отглеждането на прасета. Но например ако някой говори за интернет, нормално е да употребява думи като web 2, license, software, os… – идеята е кои от думите свързани с темата се използват най-малко(или може да се каже, че се избягват). Това предполага наличието на бази с думи по дадена тема- не е просто, но има ли такова животно?

  • пейо на 16.02.2007г. в 11:52ч.

    @ ardoyne
    А той все пак на ЕС или на България е президент? Но явно повече на господата :-)

    @ Grimm
    Нямам идея как би могло да стане това.

  • Жюстин на 16.02.2007г. в 14:46ч.

    уау, супер! наистина ще е любопитно да видим Сидеров, например :)

  • kill_u на 16.02.2007г. в 15:50ч.

    @пейо
    Наистина имах голямо желание да ти пратя статията но явно архива на монитор е ограничен до една седмица, а аз си спомням че я четох миналия петък (09.02.07). Съжалявам!!!

  • пейо на 18.02.2007г. в 10:06ч.

    @ Жюстин
    Мисля, че приятели намериха изказвания на В. Сидеров в парламента и може скоро да имаме резултати.

    @ kill_u
    Благодаря ти!

  • Никола Славчев на 19.02.2007г. в 13:52ч.

    Така е по думи (понятия).
    А сега ако ги класифицираме по части на речта и вкараме статистика коя дума най-често след коя следва. После с марковите верижки може да генерираме послания които да са есенцията на президентския изказ. :)

  • Fenia на 20.02.2007г. в 11:42ч.

    На Сидеров открих само една реч: http://www.ataka.bg/index.php
    На Станишев доста (предполагам всичките) са качени тук: http://www.government.bg/cgi-bin/e-cms/vis/vis.pl?s=001&p=0032&g
    Виж, бате Бойко си е направо неоткриваем…
    Очаквам с интерес резултите;)