ОИТ Лаба: Технология анализа текста и извлечения ключевых слов...

Главная » Файловое хранилище » Дисциплины » ОИТ » ОИТ Лаба: Технология анализа текста и извлечения ключевых сл...

Множество курсовых, дипломов и чертежей

ОИТ Лаба: Технология анализа текста и извлечения ключевых слов

Дисциплина: Основы информационных технологий

ВУЗ: Белорусский государственный университет информатики и радиоэлектроники

Специальность: Автоматизированные системы обработки информации

Вариант 23

Проверил: Стригалев Л.С.

Лабораторная работа № 2 по теме:

Технология анализа текста и извлечения ключевых слов

Цель работы

Практическое освоение технологии анализа текста, извлечения ключевых слов и профессионального поиска информации.

Основные принципы выбора ключевых слов

Знание общих принципов функционирования поисковых средств и умение грамотно составить запрос поисковой машине необходимые, но недостаточные условия успешного поиска требуемой информации. Надо еще и уметь правильно выбирать ключевые слова поиска. Это особенно ощутимо при поиске в незнакомой предметной области, поскольку выбор ключевые слов, которые должны максимально соответствовать тематическому направлению, затруднен именно незнанием специфики предметной области (заметим, что это штатная ситуация для поисковой машины). Выбор ключевых слов в данном случае может осуществить специалист узкого профиля, но труд его дорог и малопроизводителен, или специальные программные средства, основанные на применении законов Зипфа. Джордж Зипф установил, что все тексты подчиняются общим закономерностям, и сформулировал в 1946—49 гг. несколько законов, которые нашли применение в технологии поиска информации.

Законы Зипфа используются при создании на поисковых серверах базы данных, в которой хранится индексированная информация; при этом учитывается целый ряд факторов, таких как вес слова, его местоположение в документе, морфологические особенности и др. Они же используются и для оценки релевантности (степени соответствия) документов в процессе поиска. Релевантность изменяется от 0 до 1, в зависимости от того, какое количество слов поискового выражения содержится в найденном документе, а также веса каждого из таких слов. Уточненные законы Зипфа используются также в алгоритмах автоматического распознавания текста программ-экстракторов, которые осуществляют семантический анализ текстов и извлекают ключевые слова и выражения.

TextAnalys позволяет осуществлять эффективную семантическую обработку текстов с извлечением ключевых слов и выражений. Вот один из примеров использования этой программы. Допустим, мы располагаем текстом заинтересовавшей нас работы и хотим отыскать подобные ей публикации. Для достижения этой цели, выберем с использованием TextAnalys ключевые слова, составим поисковый запрос и введем его в поисковую машину. Достоинство такого подхода в том, что TextAnalys позволяет найти ключевые слова, адекватно отображающие интересующую нас тематику, а это главное условие успешного поиска. По-видимому, эта программа может быть использована и для выявления нарушения авторских прав.

Последовательность действий при выборе ключевых слов поискового запроса

При выборе ключевых слов поискового запроса без использования программных средств необходимо выполнить следующее:

  1. 1. Удалить (или вычеркнуть) из выбранного текста все стоп-слова и вычислить частоту вхождения каждого из оставшихся слов. Заметим, что так работает поисковая машина. В учебных целях стоп-слова можно и не вычеркивать.
  2. 2. Выписать слова в порядке убывания их частоты вхождения f и присвоить словам ранги (см. п. 2.1). В учебных целях рекомендуется построить график зависимости частоты слова f от его ранга R.
  3. 3. Выбрать, руководствуясь здравым смыслом, диапазон значений ранга слов. При этом следует помнить, что при слишком широком диапазоне значимые слова затеряются среди второстепенных слов, а при очень узком значимые слова могут просто потеряться.
  4. 4. Сформировать, используя выбранный диапазон ранга слов, список ключевых слов. Достаточно взять 10-20 слов.
  5. 5. Составить поисковый запрос, используя логический оператор «ИЛИ» и соблюдая порядок следования ключевых слов сформированного списка. Напомним (см. Лаб. раб. № 1), по умолчанию поисковая машина использует логический оператор «И», так что если оператор «ИЛИ» в поисковом запросе не указан, то при значительном количестве ключевых слов в запросе результаты поиска могут оказаться нулевыми.

На сформированный таким образом запрос поисковая машина может выдать несколько сотен миллионов страниц, но, поскольку поисковая машина, как правило, ранжирует результаты поиска, то на первых страницах окажутся наиболее релевантные документы.


Всё сдал! — онлайн помощь студентам

Перед заказом узнай стоимость

Информация о работе

Дополнительные требования

гарантия
438958 клиента остались
довольны работами.
промо У меня есть промокод

А также многих интересует
ОИТ 1308 | 5.0/1
| лаба, ОИТ
avatar