.RU

Курс научный руководитель Лубышев А. С. Преподаватель Камальдинова З. Ф


МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

ГОУВПО “Самарский государственный архитектурно-строительный университет”

Факультет информационных систем и технологий

Кафедра прикладной математики и вычислительной техники


ПОЯСНИТЕЛЬНАЯ ЗАПИСКА К КУРСОВОЙ РАБОТЕ


по дисциплине

ТЕХНОЛОГИЯ ПРОФЕССИОНАЛЬНОЙ ДЕЯТЕЛЬНОСТИ


на тему


«Исследование структур фактографической информации»


4 СЕМЕСТР 2 КУРС


Научный руководитель Лубышев А. С.

Преподаватель Камальдинова З. Ф.

Методический руководитель Пиявский С. А.





Выполнил:

студент Нуриманова Д. ГИП-109 ______________




подпись дата















Оценка преподавателя _______________


Оценка комиссии по результатам защиты_______________


2011 г.


УДК 004.6+002.5


Расшифровка:

Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем

Данные


А также:

Печать в целом. Документация. Научно-техническая информация (НТИ)

Работа органов научно-технической информации


^ Ключевые слова

Текстовая информация, табличная информация, структурированные данные, избыточность, уникальные слова, стоп - слова, алгоритм Мартена Портера


Реферат (до 10 строк)


В данной работе проведено исследование текстовой и табличной информации. Выдвинута гипотеза о росте словаря уникальных слов, выведена формула расчета избыточности. На основе алгоритма Мартена Портера написана программа, определяющая общее количество, количество уникальных слов, стоп-слов. После анализа при помощи программы нескольких документов на основе полученных данных проведены вычисления, построены графики роста уникальных слов и графики избыточности. Проведен сравнительный анализ данных по текстовой и табличной информации. Сделаны выводы.


^ Экран оценки творческого уровня работы





Развернутая оценка работы ее автором

Тема работы: «Исследование структур фактографической информации»

Провести сравнительное исследование текстовой, табличной информации и сравнить это с полученной фактографической базой знаний

Рейтинг КР студента Плановый _____6______ Зачетный ____________



^ В каждой клетке оставить строку, отвечающую планируемой оценке

Конкретно объяснить, на чем будет основана планируемая оценка

^ 1 Тип работы

3 - кроме 2, знает по литературе о тенденциях развития соответствующего направления на основе ИКТ.

Сравнительный анализ текстовой и табличной информации. Сопоставляется с научными результатами Хипса (Закон Хипса), Законом Мура примененном на информационное пространство.

^ 2 Работа является частью НИР руководителя, кафедры, лаборатории

2 - результаты достойны использования руководителем в докладах и статьях в центральной печати,


Работа может быть использована в качестве доказательства создания фактографической базы знаний и фактографической ИПС на данной фактографической базе знаний

^ 3 Работа относится к новому перспективному направлению развития ИКТ

2 – традиционное направление с невысокой частотой защит кандидатских диссертаций (например, сложные вычислительные программы, документальные и фактографические ИС),





^ 4 Направлена (подготовлена) публикация в печати

0 - нет,


-

5 Работа внедрена или подготовлена к внедрению в сторонних организациях

1 - работа может быть использована в учебных целях в своем учебном заведении,





^ 6 Имеется глубокий обзор проблематики по направлению науки и техники в сопоставлении с темой работы

1 – знает историю развития направления, его перспективы, ученых и названия их работ


Хипс, Мур, Кальоти

^ 7 Автором предложена собственная формализованная постановка проблемы

2 - предложена постановка, использующая традиционный сравнительно несложный математический аппарат, выполнена, в основном, самостоятельно,


Выдвинута гипотеза, выведена формула для подсчета избыточности

^ 8 Получены новые научные результаты


4 – получены, в основном, учащимся, достаточно значительны,





^ 9 Имеются собственные оригинальные идеи автора

2 – использованы идеи, приемы, методы из других областей науки, неожиданные в контексте выполненной работы и имеющие значение лишь для отдельных ее элементов,


Применение алгоритма Мартина Портера, закона Мура на информационном пространстве


^ 10 Имеется анализ литературы (по авторам и времени) по теме работы

3 - анализ проведен самим учащимся по нескольким Интеренет – источникам с перекрестным сопоставлением информации




^ 11 Освоены новые информационно-коммуникационные технологии

3 - освоены средства программирования типа Basic, Delphi, пакеты автоматизированного проектирования ИС и т.п.,


Программа на Delphi

^ 12 Разработаны компьютерные программы, информационные системы и технологии (с учетом полноты и качества реализации понижаются на 1-2 ступени)

1 - простые вычислительные и информационные программы, использованы лишь стандартные пакеты и сервисы




^ 13 Проводится многопараметрическое качественное исследование объекта (процесса)

4 - с помощью разработанных программных средств на большом материале и приводит к существенным выводам,

С помощью разработанного модуля «Анализатор текстовой избыточности»

^ 14 Качество оформления работы

3 – кроме 2, программный продукт работает безупречно




15 Качество доклада и ответов на вопросы

3 - докладывает самостоятельно, четко, громко, отвечает на все вопросы,





Творческий рейтинг КР 6






УДК 004.6+002.5

^ ИССЛЕДОВАНИЕ СТРУКТУР ФАКТОГРАФИЧЕСКОЙ ИНФОРМАЦИИ

Д. Ф. Нуриманова

В современном обществе роль информации значительно возросла, следовательно, сам информационный объем неуклонно увеличивается. Особенно это наблюдается в интернете. Подчиняясь закону Мура, рост информации носит экспоненциальный характер, причем объем интернета увеличивается в два раза каждые три года. Информация плохо структурирована, ее сложно обрабатывать и использовать. Следовательно, исследование структур фактографической информации актуально на сегодняшний день.

Выдвинем суждение о том, что текстовая информация плохо структурирована и имеет большую избыточность. Гипотеза: предположим, что с ростом объема документа размер словаря уникальных слов будет расти медленнее, чем расти общее количество слов в документе.

На основе алгоритма Мартена Портера написана программа, определяющая общее количество, количество уникальных слов, стоп-слов. Благодаря этому алгоритму мы решаем одну из семантических проблем: словоформы. Этот алгоритм математически определяет основу слова, отбрасывая его окончания. Стеммер Портера работает хотя и не на 100% верно во всех случаях, но зато очень быстро, что в нашей задаче важно.

Введем такую величину как избыточность. Пусть - количество слов в документе, - объем словаря уникальных слов. Тогда избыточность равна:

.

Подтверждена выдвинутая гипотеза, то есть с ростом объема документа словарь уникальных слов растет медленнее общего количества слов. Причем, чем больший материал мы анализируем (большее количество предложений в тексте), тем более явно мы можем это наблюдать.

В табличной информации избыточность растет медленно, следовательно, в таблицах содержится больше ценной фактографической информации и меньше «воды», в отличие от чисто текстовых документов.

Графики разных произведений одного и того же автора могут указывать на его «почерк», поскольку при написании произведений писатели используют свой уникальный словарный запас, тем самым с помощью таких графиков можно предположить, какой автор написал то или иное произведение. Подобное наблюдение было сделано Эмануэлем Кальоти в его исследованиях текстовой информации.

Информация, содержащаяся в энциклопедических изданиях, также как и табличная информация несет в себе бОльшую ценность, поскольку содержит больше фактографической информации.

Введение


В современном обществе роль информации значительно возросла, следовательно, сам информационный объем неуклонно увеличивается. Особенно это наблюдается в интернете. С одной стороны, рост информации приводит к увеличению доступности знаний, но с другой – к хаосу, так как в интернете информация плохо структурирована, многое повторяется и поэтому сложно ее обрабатывать и использовать.

Выдвинем суждение о том, что текстовая информация плохо структурирована и имеет большую избыточность.

Гипотеза: предположим, что с ростом объема документа размер словаря уникальных слов будет расти медленнее, чем расти общее количество слов в документе.

^ Основные понятия:

Уникальное слово - слово, имеющее смысловую нагрузку, независимо от его морфологии

Стоп-слово - слово не несущее смысловой нагрузки (предлоги, союзы, частицы и т.п.)

^ Словарь уникальных слов – массив неповторяющихся уникальных слов

Стеммер Портера — алгоритм стемминга, опубликованный Мартином Портером в 1980 году. Оригинальная версия стеммера была предназначена для английского языка и была написана на языке BCPL. Впоследствии Мартин создал проект «Snowball» и, используя основную идею алгоритма, написал стеммеры для распространённых индоевропейских языков, в том числе для русского.

Алгоритм не использует баз основ слов, а лишь, применяя последовательно ряд правил, отсекает окончания и суффиксы, основываясь на особенностях языка, в связи с чем работает быстро, но не всегда безошибочно.

Алгоритм был очень популярен и тиражируем, в него часто вносились изменения разными разработчиками, причём не всегда удачные. Примерно в 2000 году Портер принял решение «заморозить» проект и впредь распространять одну-единственную реализацию алгоритма (на нескольких популярных языках программирования) со своего сайта.

^ Описание программного модуля


Интерфейс программы показан на рисунках 1-2. Он представляет собой 2 поля: слева мы видим загруженный текст, который можно там же редактировать, справа таблица с полученными результатами: количество предложений, количество слов, количество уникальных слов и количество стоп-слов. Ниже расположены три кнопки. Первая – для загрузки текстовых документов (в формате txt), вторая - для запуска анализа загруженного текста, третья – для пересылки полученных данных в документ Excel. Также можно следить за ходом выполнения анализа и прерывать его.

Программа определяет избыточность информации таким образом: анализирует текст по предложениям (сначала первое, потом 1-ое и 2-ое, потом 1, 2 и 3 и т.д.), считая в них количество слов и следя за ростом уникальных и стоп-слов.



Рисунок 1. – Интерфейс программы во время работы



Рисунок 2. – Интерфейс программы после анализа документа

В программе используется алгоритм Мартена Портера. Благодаря этому алгоритму мы решаем одну из семантических проблем: словоформы. Этот алгоритм математически определяет основу слова, отбрасывая его окончания. Стеммер Портера работает хотя и не на 100% верно во всех случаях, но зато очень быстро, что в нашей задаче важно.

^ Математическая модель

Введем такую величину как избыточность. Пусть

- количество слов в документе,

- объем словаря уникальных слов. Тогда избыточность равна:



Анализ

^ Первый этап – анализ классических художественных произведений («Анна Каренина», «Преступление и наказание», «Капитанская дочка», «Мастер и Маргарита»). На основе полученных данных построим среднестатистический график по всем четырем произведениям.



График 1 - Рост словаря уникальных слов

На графике 1 видно, что с каждым разом разрыв между общим количеством и количеством уникальных слов все больше, и разница достаточно резко увеличивается. Это подтвержает нашу гипотезу, то есть словарь уникальных слов растет медленнее объема общего количества слов. Причем, чем больший материал мы анализируем (большее количество предложений в тексте), тем более явно мы можем это наблюдать. Например, в произведении Достоевского «Преступление и наказание»:



График 2 – Рост словаря уникальных слов в произведении Ф. Достоевского «Преступление и наказание»

Используя выведенную формулу, была посчитана избыточность и построен график:



График 3 - Избыточность в текстах классических художественных произведений

На графике 3 видно, что избыточность растет по графику квадратного корня. Причем, если исключить стоп-слова, график получается более точный.



График 4 – Закон Хипса

Сравнив график 4 (закон Хипса) и полученный график 1, можно сказать что мы пришли к таким же результатам, что и Хипс: эмпирический закон Хипса связывает объем документа с объемом словаря уникальных слов, которые входят в этот документ. Казалось бы, словарь уникальных слов должен насыщаться, а его объем стабилизироваться при увеличении объемов текста. Оказывается, это не так. Для всех известных сегодня текстов в соответствии с законом Хипса, эти значения связаны соотношением где v - это объем словаря уникальных слов, составленный из текста, который состоит из n уникальных слов, α и β – определенные эмпирически параметры. Для европейских языков α принимает значение от 10 до 100, а β - от 0.4 до 0.6.

Второй этап – анализ информации, содержащейся в таблицах. Для того чтобы можно было воспользоваться программой, эти данные были представлены в текстовом виде, то есть изъяты из таблицы и сохранены в формате txt. На основе полученных данных (анализировались 3 документа) построен следующий график:



График 5 – Рост словаря уникальных слов в документах с табличными данными

На графике 5 видно, что количество уникальных слов не сильно отстает от общего количества слов, в отличие от графиков 1 и 3, что говорит о меньшей избыточности. Построим график роста избыточности:



График 6 – Избыточность в документах с табличной информацией

На графике 6 видим, что избыточность растет медленно, едва ли не вдоль прямой, следовательно, можно сделать вывод о том, что в табличной информации содержится больше ценной фактографической информации и меньше «воды» в отличие от чисто текстовых документов.

Третий этап – анализ произведений одного автора (братья Сергей и Александр Абрамовы, произведения «Стоп-кран», «Селеста – 7000», «Всадники ниоткуда»). После анализа трех произведений были получены следующие графики:



График 7 - Произведение «Стоп-кран»



График 8 - Произведение «Селеста 7000»



График 9 – Произведение «Всадник ниоткуда»

Проанализировав полученные графики, можно заметить, что все они очень похожи друг на друга, то есть при визуальном наложении они практически совпадают. Отсюда следует вывод, что графики разных произведений одного и того же автора могут указывать на его «почерк», поскольку при написании произведений писатели используют свой уникальный словарный запас, тем самым с помощью таких графиков можно предположить, какой автор написал то или иное произведение. Подобное наблюдение было сделано Эмануэлем Кальоти в его исследованиях текстовой информации.

^ Четвертый этап – анализ энциклопедической литературы.



График 10 – Рост словаря уникальных слов в энциклопедической литературе

Проанализировав полученный график, видим, что он схож с графиком 4 – количество уникальных слов не резко отличается от общего количества. Это говорит о том, что информация, содержащаяся в энциклопедических изданиях, также как и табличная информация несет в себе бОльшую ценность, поскольку содержит больше фактографической информации.



График 11 – Избыточность в энциклопедической литературе

Выводы

  1. Подтверждена выдвинутая гипотеза, то есть с ростом объема документа словарь уникальных слов растет медленнее общего количества слов. Причем, чем больший материал мы анализируем (большее количество предложений в тексте), тем более явно мы можем это наблюдать.

  2. В табличной информации избыточность растет медленно, следовательно, в таблицах содержится больше ценной фактографической информации и меньше «воды», в отличие от чисто текстовых документов.

  3. Графики разных произведений одного и того же автора могут указывать на его «почерк», поскольку при написании произведений писатели используют свой уникальный словарный запас, тем самым с помощью таких графиков можно предположить, какой автор написал то или иное произведение. Подобное наблюдение было сделано Эмануэлем Кальоти в его исследованиях текстовой информации.

  4. Информация, содержащаяся в энциклопедических изданиях, также как и табличная информация несет в себе бОльшую ценность, поскольку содержит больше фактографической информации.

  5. Мы пришли к таким же результатам, что и Хипс: эмпирический закон Хипса связывает объем документа с объемом словаря уникальных слов, которые входят в этот документ. Казалось бы, словарь уникальных слов должен насыщаться, а его объем стабилизироваться при увеличении объемов текста. Оказывается, это не так. Для всех известных сегодня текстов в соответствии с законом Хипса, эти значения связаны соотношением

Библиографический список

  1. Фактология – Википедия [Электронный ресурс] // Режим доступа: http://ru.wikipedia.org/wiki/Фактология

  2. Капустин В.А. Основы поиска информации в интернете: Методическое пособие/ Институт «Открытое общество». – Санкт-Петербург, 1998.

  3. Ландэ Д. В. Поиск знаний в Internet. Профессиональная работа.: Пер. с англ. – М. : Издательский дом «Вильямс», 2005. – 272 с.: ил. – Парал. тит. англ.

  4. Ландэ Дмитрий Владимирович, Снарский Андрей Александрович, Безсуднов Игорь Васильевич. ИНТЕРНЕТИКА. Навигация в сложных сетях: модели и алгоритмы. - M.: Либроком (Editorial URSS), 2009. - 264 с. ISBN 978-5-397-00497-8 Москва-2009

  5. Синтаксический анализ – Википедия [Электронный ресурс] // Режим доступа: http://ru.wikipedia.org/wiki/Парсинг

  6. Закон Мура [Электронный ресурс] // Режим доступа: http://cs.usu.edu.ru/study/moore/

  7. Стеммер Портера [Электронный ресурс] // Режим доступа: http://ru.wikipedia.org/wiki/Стеммер_Портера

kurs-lekcij-po-discipline-bezopasnost-zhiznedeyatelnosti-dlya-specialnosti-iab-arhitektura-1-j-kurs.html
kurs-lekcij-po-discipline-buhgalterskij-finansovij-uchet-dlya-studentov-specialnosti-buhgalterskij-uchet-audit-i-analiz.html
kurs-lekcij-po-discipline-ekonomika-organizacii-predpriyatiya-dlya-studentov-specialnosti-080114-ekonomika-i-buhgalterskij-uchet-2011-g.html
kurs-lekcij-po-discipline-fiziologiya-centralnoj-nervnoj-sistemi-i-visshej-nervnoj-deyatelnosti-dlya-specialnostej-biologiya-himiya-stranica-5.html
kurs-lekcij-po-discipline-informatika-i-matematika-dlya-kursantov-i-slushatelej-sankt-peterburg.html
kurs-lekcij-po-discipline-istoriya-ekonomicheskih-uchenij-moskva-2008-stranica-5.html
  • lektsiya.bystrickaya.ru/press-push-nazhat-slovar-dictionary-termini-i-sokrasheniya-razdel-1.html
  • lecture.bystrickaya.ru/462-sushestvuyushaya-politika-i-strategii-koncepciya-perehoda-respubliki-tadzhikistan-k-ustojchivomu-razvitiyu-soderzhanie.html
  • abstract.bystrickaya.ru/22-makrosociologiya-i-mikrosociologiya-otlichiya-i-principialnoe-edinstvo.html
  • lesson.bystrickaya.ru/regionalnij-komponent-programmi-setevoe-vzaimodejstvie-ou-rodinskogo-rajona-v-profilnom-obuchenii-programmi-zdorove.html
  • abstract.bystrickaya.ru/1-stranovoj-opit-sozdaniya-reestrov-kulturnih-cennostej-i-obektov-kulturnogo-naslediya.html
  • learn.bystrickaya.ru/glava-3-zrelij-sokrat-glazami-sovremennikov-a-v-zberovskij-sokrat-i-afinskaya-demokratiya.html
  • university.bystrickaya.ru/glava-tretya-sobranie-sochinenij-v-pyati-tomah-tom-tretij.html
  • books.bystrickaya.ru/cherez-igru-socializaciya-lichnosti.html
  • kontrolnaya.bystrickaya.ru/razdel-5-osobie-sluchai-v-polete-rukovodstvo-po-letnoj-ekspluatacii-rle.html
  • ucheba.bystrickaya.ru/prakticheskaya-rabota-7-obzor-pozicij-ryada-gosudarstv-v-otnoshenii-problem-alkogolizma-kureniya-i-narkomanii.html
  • occupation.bystrickaya.ru/metodika-postroeniya-kompleksnoj-ocenki-rejtinga-deyatelnosti-organov-ispolnitelnoj-vlasti-subektov-rossijskoj-federacii.html
  • composition.bystrickaya.ru/plan-seminarskogo-zanyatiya-programma-disciplini-dlya-specialnosti-35-05-00-socialnaya-rabota-dnevnoj-formi-obucheniya.html
  • tests.bystrickaya.ru/meteli-shpargalka-egor-veryuzhskij-1.html
  • nauka.bystrickaya.ru/vesti-radio-rossii-26032009-1800-novosti-13.html
  • bukva.bystrickaya.ru/smi-internet-izdaniya-monitoring-biotehnologii-20-07-2009.html
  • crib.bystrickaya.ru/internet-resursi-novosti-8.html
  • abstract.bystrickaya.ru/32-podhodi-k-avtomatizacii-transfera-tehnologij-pozvolyayushij-sudit-ob-urovne-reshenij-realizuemih-v-nastoyashee.html
  • ucheba.bystrickaya.ru/programma-disciplini-dpp-f-04-novaya-i-novejshaya-istoriya-zarubezhnih-stran-dpp-f-04-4-novejshaya-istoriya-stran-azii-i-afriki-celi-i-zadachi-disciplini-cel-disciplini-novejshaya-istoriya-stran-azii-i-afriki.html
  • uchenik.bystrickaya.ru/kalligrafiya-kitaya-yaponii-musulmanskih-stran-chast-3.html
  • abstract.bystrickaya.ru/321-sistemnij-podhod-osnovnie-ponyatiya-i-opredeleniya-a-v-vitavskaya-doktor-tehnicheskih-nauk-professor-zaveduyushaya.html
  • learn.bystrickaya.ru/geohimicheskaya-ocenka-urovnya-opasnosti-zagryazneniya-uchastka-territorii-goroda.html
  • upbringing.bystrickaya.ru/kotorij-nado-lyubovno-ukrashat-i-pridavat-emu-elegantnuyu-strukturu-kak-u-hakeri-geroi-kompyuternoj-revolyucii.html
  • thescience.bystrickaya.ru/individualnie-trudovie-dogovora-predlagaemoe-posobie-schitaetsya-primernim-i-stavit-svoej-celyu-pomoch-vsem-tem.html
  • exchangerate.bystrickaya.ru/2-voprosi-obrazovaniya-kulturi-sporta-19-stranica-13.html
  • textbook.bystrickaya.ru/hudozhestvennie-tradicii-kazahskogo-nacionalnogo-kostyuma-v-sovremennoj-praktike-dizajna-odezhdi-17-00-04-izobrazitelnoe-dekorativno-prikladnoe-iskusstvo-i-arhitektura.html
  • upbringing.bystrickaya.ru/koncepciya-magisterskoj-programmi-080200-68-menedzhment-upravlenie-proektom-profil-podgotovki-upravlenie-proektom-v-socialno-kulturnoj-sfere-cel-magisterskoj-programmi.html
  • thesis.bystrickaya.ru/pravila-podgotovki-i-predstavleniya-ezhekvartalnogo-otcheta-vvedenie.html
  • predmet.bystrickaya.ru/s-v-prokopenko-pishik-f-p-redko-l-a.html
  • exchangerate.bystrickaya.ru/boris-safronov-hozyain-rinka-glava-fkcb-igor-kostikov-poluchil-kart-blansh-ot-putina1.html
  • klass.bystrickaya.ru/4rozhdenie-soznaniya-i-a-beskova-evolyuciya-i-soznanie.html
  • uchenik.bystrickaya.ru/andrej-nikolaevich-kolmogorov-raznostoronnyaya-lichnost-20-go-veka-chast-2.html
  • predmet.bystrickaya.ru/so-obshestva-metodicheskij-zhurnal-.html
  • nauka.bystrickaya.ru/voprosi-k-zachetu-po-discipline.html
  • lektsiya.bystrickaya.ru/programma-mihail-lomonosov-ii.html
  • studies.bystrickaya.ru/effektivnost-vnedreniya-lizingovih-operacij-na-predpriyatiyah-ribnoj-otrasli.html
  • © bystrickaya.ru
    Мобильный рефератник - для мобильных людей.