ОИТ Лаба: Технология анализа текста и извлечения ключевых слов
| |||
Дисциплина: Основы информационных технологий ВУЗ: Белорусский государственный университет информатики и радиоэлектроники Специальность: Автоматизированные системы обработки информации Вариант 23 Проверил: Стригалев Л.С. Лабораторная работа № 2 по теме: Технология анализа текста и извлечения ключевых словЦель работыПрактическое освоение технологии анализа текста, извлечения ключевых слов и профессионального поиска информации. Основные принципы выбора ключевых словЗнание общих принципов функционирования поисковых средств и умение грамотно составить запрос поисковой машине необходимые, но недостаточные условия успешного поиска требуемой информации. Надо еще и уметь правильно выбирать ключевые слова поиска. Это особенно ощутимо при поиске в незнакомой предметной области, поскольку выбор ключевые слов, которые должны максимально соответствовать тематическому направлению, затруднен именно незнанием специфики предметной области (заметим, что это штатная ситуация для поисковой машины). Выбор ключевых слов в данном случае может осуществить специалист узкого профиля, но труд его дорог и малопроизводителен, или специальные программные средства, основанные на применении законов Зипфа. Джордж Зипф установил, что все тексты подчиняются общим закономерностям, и сформулировал в 1946—49 гг. несколько законов, которые нашли применение в технологии поиска информации. Законы Зипфа используются при создании на поисковых серверах базы данных, в которой хранится индексированная информация; при этом учитывается целый ряд факторов, таких как вес слова, его местоположение в документе, морфологические особенности и др. Они же используются и для оценки релевантности (степени соответствия) документов в процессе поиска. Релевантность изменяется от 0 до 1, в зависимости от того, какое количество слов поискового выражения содержится в найденном документе, а также веса каждого из таких слов. Уточненные законы Зипфа используются также в алгоритмах автоматического распознавания текста программ-экстракторов, которые осуществляют семантический анализ текстов и извлекают ключевые слова и выражения. TextAnalys позволяет осуществлять эффективную семантическую обработку текстов с извлечением ключевых слов и выражений. Вот один из примеров использования этой программы. Допустим, мы располагаем текстом заинтересовавшей нас работы и хотим отыскать подобные ей публикации. Для достижения этой цели, выберем с использованием TextAnalys ключевые слова, составим поисковый запрос и введем его в поисковую машину. Достоинство такого подхода в том, что TextAnalys позволяет найти ключевые слова, адекватно отображающие интересующую нас тематику, а это главное условие успешного поиска. По-видимому, эта программа может быть использована и для выявления нарушения авторских прав. Последовательность действий при выборе ключевых слов поискового запросаПри выборе ключевых слов поискового запроса без использования программных средств необходимо выполнить следующее:
На сформированный таким образом запрос поисковая машина может выдать несколько сотен миллионов страниц, но, поскольку поисковая машина, как правило, ранжирует результаты поиска, то на первых страницах окажутся наиболее релевантные документы. Не можешь написать работу сам?Доверь её нашим специалистам
| |||