ФЭНДОМ


База данных создается под систему (будет ли она экспертной или какой-то еще, щас точно не скажу), которая будет выполнять несколько автоматизированных операций по дискурс-анализу (не путать с контент-анализом!).

Что за дискурс-анализ? Это лингвистический и социологический анализ текста, направленный на выявление в нем типичных черт и идеологии какой-либо группы, а также на установление степени их влияния на автора текста и на воспринимающую его аудиторию. Все это может звучать абсолютно не формализуемо, но - чтите дальше. На какие вопросы отвечает дискурс-анализ (здесь не все вопросы, а только часть, но в принципе общее представление они дают):

Семантическое описание группы:

  • Какая это группа? (название)
  • Кто в нее входит?
  • Каковы отношения между представителями группы? (иерархия)
  • Какую деятельность ведет группа?
  • С какими другими группами она связана (состоит в дружбе, конфликтует)?

Описание автора и адресата текста:

  • Состоит ли автор в какойлибо группе?
  • Каково его отношение к ней?
  • Какой группе адресован текст?


Итак, какие инструменты дискурс-анализа можно автоматизировать (это мои предположения, естественно).

1. Можно осуществлять извлечение информации о группе из текста. Например, перед нами интервью с анархистом. По предикатным связям или по ключевым словам (я за предикаты!) можно извлечь ответа на вопросы: что за группа? ее численность? что делает? и т.д.

2. Можно делать расчет принадлежности автора к группе. Методы те же: предикаты, частотная лексика, и т.д. Ну например он говорит “Я состою в движении “радикальные зоозащитники” - понятно, по ключевым словам, кто и что.

3. На основе полученной из текста информации (см. пп. выше) можно автоматически определять текст в коллекцию (текст из предыдущего примера уйдет в группу “Зоозащитники”). Не согласен. Телега ставится впереди лошади. Распределение текстов по группам у нас проводят эксперты, а потом уже на основании этих достоверных данных мы выявляем различия между группами. Akutuzov 19:06, марта 2, 2012 (UTC)

4. А вот тут щас зыбкая почва: можно на основе данных, полученных из коллекции, выделить черты, которые являются типичными для авторов, принадлежащих одной группе. Например, в коллекции текстов машина находит ряд предикатов, которые обозначают принадлежность к группе (лист предикатов есесна создается вручную, при начальной разметке текстов). И оказывается, что у такого-то процента авторов из данной группы такие-то предикаты более частотные и допустим переменные у них повторяются. Таким образом, можно будет по этим чертам, а не только как в п. 2. выше определять, какой группе че принадлежит.

5. И еще мне сейчас придумалось, что можно выделять смысловые блоки. Например, вот в этой части текста чел говорит о своем участии, а в этой - об исключении.

ПрименениеПравить

Я посмотрела какие продукты качественного (в смысле Qualitative) анализа текстового материала существуют. Есть много по контент-анализу, есть БД текстов состоящих из ответов на конкретные вопросы, есть что-то типа “Fact Extractor” (хотя я чето не поняла о чем это). Но как мне показалось это не то, что я хотела бы получить в результате. Речь идет о работе со случайными текстами представителей разных социальных групп - интервью, фокус-группы, форумы, соц.сети и т.п. По идее применить это можно так:

  1. социологи и пр. научный пипл - для сравнительного анализа коллекций текстов или поиска необходимой информации
  2. всякие там “службы” - для поиска текстов, принадлежащих авторам-представителям определенных групп
  3. тоже “в разведке” для определения авторской принадлежности отдельного текста
  4. для просто пипла - поиск форумов, Интернет-групп по интересам - не просто по названию, но и допустим по какой-то информации извлеченной из текстов, выложенных на форуме или в группе. допустим хочу узнать что такое “левый фронт”. мне выпадает миллион адресов где чтото про него говорится. а так мне сразу раз, информация - такие-то такие-то, делают то-то и то-то.