Реферат актуальність теми




Скачати 42,31 Kb.
Дата конвертації23.03.2017
Розмір42,31 Kb.
РЕФЕРАТ

Актуальність теми. Завдання обробки, систематизації та класифікації текстів набуває все більшого значення. Через значне зростання обсягів інформації, використання автоматизованих систем обробки інформації стає життєво - важливим для збереження темпів розвитку людства. Головною проблемою таких систем, також, є те, що абсолютна більшість джерел інформації є неструктурованою, як, наприклад, художня і наукова література, періодичні видання, блоги, форуми тощо. Джерелом цієї проблеми є те, що подання інформації, зручне для сприйняття людиною не завжди потребує чіткої структури, а при створенні інформаційних матеріалів, додавання структурних елементів потребує додаткових зусиль, саме тому більшість джерел інформації є неструктурованими.



Для вивчення завдання автоматичної обробки неструктурованих текстів, та текстів написаних людьми, була виділена окрема галузь комп'ютерних наук під назвою «Обробка природної мови» (анг. Natural language processing, або скорочено NLP). Пошукові двигуни, класифікатори, системи пошуку інформації у соціальних мережах, електронні бібліотеки, та багато інших видів програмного забезпечення використовують рішення з цієї галузі.

Одним з головних завдань галузі обробки природної мови є полегшення навігації і встановлення зв'язків між різними документами та файлами. Але через специфічність кожної окремої задачі, що ставиться при розробці подібних систем, універсального способу вирішення таких задач не існує, тому використовують різні підходи, кожний з яких є має свої переваги та недоліки. Одним з підходів вирішення проблеми є визначення формальних атрибутів у тексті, тобто знаходження певних логічно пов’язаних одиниць в текстових базах даних, що, звичайно, викликають найбільший інтерес у користувача інформації.

Задача виділення формальних атрибутів полягає у пошуку імен, прізвищ, дат, сум та інших даних, зі створенням посилань на тексти, або місця в текстах, де ці дані були знайдені. Використовуючи ці дані можна проводити ефективний пошук у значних об’ємах текстів, встановлювати логічні зв’язки між ними та вирішувати багато інших завдань.

Об’єктом дослідження текстові документи.

Предметом дослідження є алгоритми обробки текстів на природних мовах.

Мета роботи: підвищення ефективності роботи заснованого на правилах алгоритму виділення формальних атрибутів у текстових масивах даних, шляхом додавання елементів статистичних алгоритмів вирішення цієї задачі

Наукова новизна полягає в наступному:

  1. Вперше запропоновано алгоритм виділення формальних атрибутів, що включає в себе як елементи алгоритмів що працюють за заздалегідь створеними правилами, так і статистичних алгоритмів.

  2. Підвищена ефективність роботи існуючого алгоритму виділення формальних атрибутів, що працює на основі правил шляхом додавання елементів статистичного алгоритму виділення формальних атрибутів.

  3. Вперше запропоновано модифікацію, яка дозволяє знаходити більшу кількість формальних атрибутів у текстах порівняно зі стандартними методами виділення формальних атрибутів на основі правил, шляхом використання статистичних методів.

Практична цінність отриманих в роботі результатів полягає в тому, що запропонований алгоритм може використовуватись для пошуку значущої інформації в текстах для їх подальшої систематизації, індексації та обробки. Розроблена програмна реалізація дозволяє використовувати даний алгоритм в практичних цілях.

Апробація роботи. Основні положення і результати роботи будуть представлені та обговорюватися на VІI науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг – ПМК’2015» (Київ, 15 – 17 квітня 2015 року).

Структура та обсяг роботи. Магістерська дисертація складається з вступу, чотирьох розділів та висновків.

У вступі подано загальну характеристику роботи, зроблено оцінку сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень, сформульовано мету і задачі досліджень, показано наукову новизну отриманих результатів і практичну цінність роботи, наведено відомості про апробацію результатів і їхнє впровадження.

У першому розділірозглянуто існуючі способи вирішення задачі визначення формальних атрибутів до яких відносяться як статистичні методи, так і методи визначення за правилами. Описано основні алгоритми, існуючі програмні реалізації та науково-дослідні проекти.

У другому розділінаведено опис розробленого алгоритму для виділення формальних атрибутів.

У третьому розділірозглянуто програмну реалізацію запропонованого алгоритму, інструментів та засобів, що були використані для її розробки;

У четвертому розділіпредставлений аналіз отриманих результатів та порівняння з існуючими алгоритмами за критеріями абсолютної кількості знайдених формальних атрибутів.

У висновкахпроаналізовані результати проведеної роботи.

У додатках наведено граф-схему розробленого алгоритму, структуру модулів розробленої програмної реалізації, гістограми кількісних показників роботи алгоритму та гістограмиточності визначення формальних атрибутів.

Робота виконана на 131 аркушах, містить 6 додатків та посилання на список використаних літературних джерел з 36 найменувань. У роботі наведено 24 рисунків та 6 таблиць.


Робота містить посилання на список використаних літературних джерел.

Ключові слова:обробка природних мов, NLP, формальні атрибути, пошук.


База даних захищена авторським правом ©uchika.in.ua 2016
звернутися до адміністрації

    Головна сторінка