скрипт для лингвистического анализа текста
Опубликовано вс, 28/12/2008 - 12:58 пользователем Wictor
Forums: Просматривая отзывы на книгу Хаецкой Царство небесное натолкнулся на интересную статистику, сгенерированную скриптом (http://fantlab.ru/work9929): Цитата: Лингвистический анализ текста: Учитывая то, что большинство современных книг весьма низкого качества, задумался: можно ли дать предварительную оценку книги на основании этих цифр. Вообще при выборе книги вы бы на такую статистику обращали бы внимание?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
medved RE:Список современных французских писателей? 9 часов
etorus2008 RE:Отв: Помогите найти книгу по описанию 4 дня lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 5 дней Wedmak RE:Помогите найти!.. #2 5 дней monochka RE:Подайте бедному копеечку на книжку с литреса... 1 день sem14 RE:Координация сканирования и вычитки 1 неделя babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Isais RE:Мои открытия 2 недели kopak RE:О группе Дятлова. О той самой, того самого... 2 недели A5. RE:Не присылает пароль на почту 3 недели babajga RE:Плюмаж 1 месяц babajga RE:Блошкинс и Фрю. Опасное путешествие 1 месяц alexk RE:Багрепорт - 2 1 месяц babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц edvud RE:Прошу переформатировать, распознать, etc... 1 месяц monochka RE:С 8 Марта! 1 месяц Впечатления о книгах
tvv про Blanšets: Misis Ročestere [lv] (Историческая проза)
06 05 Имя автора этой книги - Warwick Blanchett
tvv про Šveikerts: Viņš pasūtīja sarkanvīnu [lv] (Историческая проза)
06 05 Этот автор https://de.wikipedia.org/wiki/Walter_Karl_Schweickert
tvv про Kosovica: Nakts Jeruzalemē [lv] (Современная проза)
06 05 Автор этой книги Биргите Косович (Birgithe Kosovic) https://pl.spb.ru/lib/projects/pages/readers-2012/Authors/Danmark/kosovic.html https://en.wikipedia.org/wiki/Birgithe_Kosovic
tvv про Zūdermanis: Reiz bija. Rūpju māte [lv] (Историческая проза)
05 05 Автор этой книги Герман Зудерман http://az.lib.ru/z/zuderman_g/ https://en.wikipedia.org/wiki/Hermann_Sudermann
tvv про Ketu: Vecmāte [lv] (Историческая проза)
05 05 Об авторе: https://en.wikipedia.org/wiki/Katja_Kettu
Skyns71 про Апокалипсис сегодня
05 05 Искренне сочувствую автору. Ведь был когда-то хорошим писателем...
tvv про Čalente: Levantes balāde [lv] (Историческая проза)
05 05 Автор - Фауста Чиаленте (Чаленте) https://ru.wikiital.com/wiki/Fausta_Cialente https://en.wikipedia.org/wiki/Fausta_Cialente
tvv про Ganghofers: Klostera mednieks [lv] (Исторические приключения)
05 05 Автор книги https://ru.wikipedia.org/wiki/Гангхофер,_Людвиг
tvv про Frensens: Jerns Ūls [lv] (Историческая проза)
05 05 Автор книги Густав Френсен, http://az.lib.ru/f/frensen_g/ , https://en.wikipedia.org/wiki/Gustav_Frenssen
tvv про Jillenstens: Dona Žuana ēnā. Ačgārnā atmiņa. Gluži vienkārši [lv] (Историческая проза)
05 05 Автор книги https://ru.wikipedia.org/wiki/Юлленстен,_Ларс
tvv про Larreta: Dona Ramiro godība [lv] (Историческая проза)
05 05 Автор книги https://en.wikipedia.org/wiki/Enrique_Larreta |
Отв: скрипт для лингвистического анализа текста
Хотите поверить алгеброй гармонию? :)
Нет. Цифры любопытные, но, увы, о качестве книги они ровным счетом ничего не говорят.
Отв: скрипт для лингвистического анализа текста
А если бедный язык у автора? Ну т.е. значение "Активный словарный запас"?
Отв: скрипт для лингвистического анализа текста
Вы считаете, что у Елены Хаецкой "бедный язык"? :)
Отв: скрипт для лингвистического анализа текста
Я вот тоже очень удивилась. Зато выявилась достоверность "скриповой" оценки текста. :)
Отв: скрипт для лингвистического анализа текста
Под словом "автор" я имел в виду автора гипотетического. Хаецкая мне нравится, хотя в некоторых ее произведения встречаются повторы чуть ли не абзацев. Например куски текста из Саги о Хелоте встречаются в Харольде.
Отв: скрипт для лингвистического анализа текста
Не люблю говорить о сферических конях в вакууме. В Вашем примере активный словарный запас автора "ниже среднего". С творчеством автора Вы знакомы. Значит, можете сделать выводы. Вы считаете, что у данного автора "бедный язык"? Если ответ "да", то Вы можете смело использовать данный скрипт для предварительной оценки произведения :)
Отв: скрипт для лингвистического анализа текста
На именно такую статистику - скорее не обращал бы, чем обращал.
Но вообще-то идея не такая уж дурацкая, гармонию - не гармонию, а некоторые характеристики текста программно поймать вполне можно, хоть тот же "Штампомер" вспомнить. У меня давно свербила идея попробовать на зубок тексты людей, явно не умеющих писать (ака графоманов).
Есть как минимум два довольно легко формализуемых признака графоманского текста:
1. Избыток восклицательных знаков в прямой речи героев.
2. Вязкость словоупотребления, то бишь - одинаковые или однокоренные слова в соседних предложениях (например "Но вообще-то идея не такая уж дурацкая..." и "У меня давно свербила идея...").
Был ешё и третий признак, но я его, каюсь, забыл...
Отв: скрипт для лингвистического анализа текста
Вот ещё можно вдоволь поиграться: http://rusf.ru/books/analysis/ :)
Отв: скрипт для лингвистического анализа текста
Можно обращать и на такую но ... только строить ее не по книге, а по автору. Т.е. ввести весь его опубликованный корпус и построить профиль, желательно в привязке ко времени, что б была видна и динамика. Но при этом не забывать, что это относительные характеристики и их надо сравнивать с "подпольем" и "потолком" ;), т.к. средняя температура по больнице ничего толкового не выявит.