Текстовые данные
- 1 year ago
- 0
- 0
Неструктури́рованные да́нные — данные , которые не соответствуют заранее определённой модели данных , и, как правило, представлены в форме текста с датами, цифрами, фактами, расположенными в нём в произвольной форме . Такие данные трудно анализировать, особенно при помощи традиционных программ , предназначенных для работы со ( аннотированными или хранящимися в базах ).
По оценкам Merrill Lynch 1998 года около 80—90 % от всей потенциально полезной деловой информации было представлено в неструктурированной форме [1] , однако это соотношение не было основано на статистике или количественных исследованиях, а являлось предположением [2] . Computerworld оценивает объём неструктурированных данных в организациях в 70—80 % от всех данных [3] .
Самые ранние исследования в области бизнес-аналитики были сосредоточены не на числовых данных, а на неструктурированных текстовых данных. Уже в 1958 году такие исследователи в области информационных технологий, как Х. П. Лун, изучали способы извлечения и классификации данных в неструктурированном тексте. Тем не менее, только с начала 2000-х годов имеющиеся технологии догнали исследовательский интерес. В 2004 году SAS Institute разработал SAS Text Miner, который использует сингулярное разложение, чтобы факторизовать текстовое пространство высокой размерности на подпространства меньшей размерности для значительного упрощения машинного анализа [ неавторитетный источник ] . Достижения в области математики и технологий машинной обработки текстов стимулировали проведения исследований коммерческими организациями в таких областях, как анализ тональности текста (сентимент-анализ), сбор и анализ мнений потребителей, автоматизация центров обработки вызовов [ неавторитетный источник ] . Появление технологий больших данных в конце 2000-х годов стимулировало повышенный интерес к программам для анализа неструктурированных данных в современных областях, таких как прогнозирование и причинно-следственный анализ (root cause analysis) .
Термин «неструктурированные данные» может считаться неточным по нескольким причинам:
Такие техники, как интеллектуальный анализ данных (data mining), обработка естественного языка (Natural Language Processing) и интеллектуальный анализ текста , предоставляют методы поиска закономерностей с целью так или иначе интерпретировать неструктурированную информацию.
Методы структурирования текста обычно включают ручное тегирование (метаданные) или разметку по частям речи для дальнейшего структурирования текста. (UIMA) обеспечивает общую основу для обработки этой информации для извлечения значений и создания структурированных данных на основе неструктурированной информации [4] . Программное обеспечение, которое создает машинно-обрабатываемую структуру данных, использует лингвистические, звуковые и визуальные структуры, которые существуют во всех формах человеческого общения [5] . Например, специальные алгоритмы могут вывести структуру из текста путем анализа морфологии , синтаксиса предложений, и так далее. Затем неструктурированную информацию можно разметить для снятия неоднозначности, а для улучшения поиска используются методы оценки релевантности.
Примером «неструктурированных данных» могут служить книги, журналы, документы, метаданные, медицинские записи, аудио, видео, аналоговые данные, изображения, а также файлы, имеющие основой неструктурированный текст: сообщения электронной почты, веб-страницы, документы, созданные с помощью текстовых процессоров . Неструктурированная информация может храниться в форме структурированных объектов (например, в форме файлов или документов), которые сами по себе имеют структуру. При этом сочетание структурированных и неструктурированных данных в совокупности также называется «неструктурированные данные» [6] . Например, в веб-страницах на языке HTML уже есть разметка, однако она пригодна лишь для отображения. В ней не содержится информация о значениях или функциях тех или иных размеченных элементов в виде, пригодном для автоматической обработки. Разметку средствами XHTML проще обрабатывать автоматически, но, обычно, в ней не содержится семантических значений выражений.
Так как неструктурированные данные обычно хранятся в форме электронных документов , программы для анализа содержания или управления документами предпочитают классифицировать скорее целые документы, чем производить манипуляции внутри документов. Таким образом, программы для обработки такого типа данных обычно представляют средства для создания коллекций документов с неструктурированной информацией. Однако сегодня существуют также решения, работающие с атомарными элементами меньшими, чем целый документ .
Поисковые системы стали одним из популярных инструментов для индексации и поиска в неструктурированных данных.