ОИТ Лаба: Технология анализа текста и извлечения ключевых слов
| |||
Дисциплина: Основы информационных технологий ВУЗ: Белорусский государственный университет информатики и радиоэлектроники Специальность: Автоматизированные системы обработки информации Вариант 23 Проверил: Стригалев Л.С. Лабораторная работа № 2 по теме: Технология анализа текста и извлечения ключевых словЦель работыПрактическое освоение технологии анализа текста, извлечения ключевых слов и профессионального поиска информации. Основные принципы выбора ключевых словЗнание общих принципов функционирования поисковых средств и умение грамотно составить запрос поисковой машине необходимые, но недостаточные условия успешного поиска требуемой информации. Надо еще и уметь правильно выбирать ключевые слова поиска. Это особенно ощутимо при поиске в незнакомой предметной области, поскольку выбор ключевые слов, которые должны максимально соответствовать тематическому направлению, затруднен именно незнанием специфики предметной области (заметим, что это штатная ситуация для поисковой машины). Выбор ключевых слов в данном случае может осуществить специалист узкого профиля, но труд его дорог и малопроизводителен, или специальные программные средства, основанные на применении законов Зипфа. Джордж Зипф установил, что все тексты подчиняются общим закономерностям, и сформулировал в 1946—49 гг. несколько законов, которые нашли применение в технологии поиска информации. Законы Зипфа используются при создании на поисковых серверах базы данных, в которой хранится индексированная информация; при этом учитывается целый ряд факторов, таких как вес слова, его местоположение в документе, морфологические особенности и др. Они же используются и для оценки релевантности (степени соответствия) документов в процессе поиска. Релевантность изменяется от 0 до 1, в зависимости от того, какое количество слов поискового выражения содержится в найденном документе, а также веса каждого из таких слов. Уточненные законы Зипфа используются также в алгоритмах автоматического распознавания текста программ-экстракторов, которые осуществляют семантический анализ текстов и извлекают ключевые слова и выражения. TextAnalys позволяет осуществлять эффективную семантическую обработку текстов с извлечением ключевых слов и выражений. Вот один из примеров использования этой программы. Допустим, мы располагаем текстом заинтересовавшей нас работы и хотим отыскать подобные ей публикации. Для достижения этой цели, выберем с использованием TextAnalys ключевые слова, составим поисковый запрос и введем его в поисковую машину. Достоинство такого подхода в том, что TextAnalys позволяет найти ключевые слова, адекватно отображающие интересующую нас тематику, а это главное условие успешного поиска. По-видимому, эта программа может быть использована и для выявления нарушения авторских прав. Последовательность действий при выборе ключевых слов поискового запросаПри выборе ключевых слов поискового запроса без использования программных средств необходимо выполнить следующее:
На сформированный таким образом запрос поисковая машина может выдать несколько сотен миллионов страниц, но, поскольку поисковая машина, как правило, ранжирует результаты поиска, то на первых страницах окажутся наиболее релевантные документы.
| |||