Системная социология: Opinion Mining


Opinion Mining - это задача обработки естественного языка и извлечения информации, целью которой является получение чувств писателя, выраженных в комментариях, вопросах и запросах, путем анализа большого количества документов [1] [2]. В последние годы экспоненциальное использование Интернета в качестве средства коммуникации привело к генерации огромного количества неструктурированных данных. Веб-данные растут изо дня в день в геометрической прогрессии, и становится практически невозможно анализировать и интерпретировать такой огромный объем данных. Решением этой проблемы было извлечение мнения из этих доступных данных в автоматическом режиме (например, оценивать продукт по отзывам об услугах и компаниях, как здесь: tell-me.su). Ключевыми шагами в извлечении мнений являются извлечение и структурирование мнений, что помогает в агрегировании и анализе мнений по заранее определенным темам [1]. Извлечение мнения также включает в себя идентификацию держателя мнения, предмета проверки, а также вывод положительного или отрицательного ответа.

Opinion Mining - это область, которой в последние несколько лет уделяется большое внимание исследователей. 

Hatzivassiloglou и McKeown предложили использовать контролируемый алгоритм обучения, чтобы вывести семантическую ориентацию прилагательных из ограничений на союзы [1]. Они использовали список начальных слов, чтобы определить, содержит ли предложение положительные или отрицательные чувства. Yi и Nasukawa (2005) создали словарь полярности, чтобы извлечь чувства из предложения. Benamara и др. предложили использовать наречие-прилагательные сочетания (AAC) [1]. Наречия были разделены на пять категорий. На основе этой классификации был определен набор общих аксиом, которые должны были удовлетворяться всеми методами оценки наречий.

Ghose и др. предложили совершенно другую методологию для измерения силы и полярности мнения [1]. Идея здесь состояла в том, чтобы использовать экономический контекст, в котором оценивается мнение, вместо использования человеческих аннотаторов или лингвистических ресурсов. Основное предположение заключается в том, что продукт с более позитивным мнением продается по более высокой цене, чем продукт с негативным мнением. Таким образом, фактическая цена продукта используется для определения ориентации мнения. Popescu и Etzioni представили OPINE [1], систему извлечения информации без присмотра, которая разрабатывает обзоры для построения модели важных характеристик продукта, их оценки рецензентами и их относительного качества по продуктам.

L. Dey и M. Haque (2009) обсудили свою работу в области анализа мнений на основе зашумленных текстовых данных [1]. Их документ представил основу для общей системы поиска мнений в Интернете. Их система использует лингвистический подход, который использует правила поверхностной зависимости для определения выражений мнений в зашумленных текстовых данных. В документе также был предложен новый подход к модификаторам наречий.

Область применения системы может быть расширена многими способами. Во-первых, процесс извлечения данных может быть обобщен для извлечения данных для всех источников, доступных в Интернете. Это включает в себя блоги, форумы, веб-сайты и даже чаты. Также отзывы, отправленные по электронной почте, также могут быть интегрированы в систему.

Во-вторых, работа системы может быть сделана независимой от домена. Это можно сделать, расширив предметные знания, чтобы охватить все относящиеся к домену слова для каждой области. В-третьих, система может быть разработана для нескольких языков, чтобы охватить большую область пользовательских отзывов. Наконец, система не обучена обнаруживать сарказм в обзорах. Это можно сделать, обучив систему распознавать фразы, слова и смыслы, которые обычно используются при саркастических комментариях. Все это может быть включено в систему для получения лучших результатов.

Использованные источники

[1] Lipika Dey, Sk. Mirajul Haque, “Opinion mining from noisy text data”, International Journal on Document Analysis and Recognition (IJDAR), Vol. 12, Issue 3, pp. 205-226, September 2009.

[2]   Subhabrata   Mukherjee,    "Sentiment    Analysis,    A     Literature Survey", Indian Institute of Technology, Bombay, India, 29 June 2012 [3]   Amiya.T, Suman.R, Rylan.M, Sonu.P, Rilesh.R, "Extracting new product ideas from consumer blogs", International Conference on Communication, Information & Computing Technology(ICCICT), 2012.

[4]   Ion Smeureanu, Cristian Bucur (2012), "Applying Supervised Opinion Mining Techniques on Online User Reviews", Informatica Economica Vol. 16, Issue 2, 2012.

[5]   M. Rushdi Saleh, M.T. Martín-Valdivia, A. Montejo-Ráez, L.A. Ureña-López, "Experiments with SVM to classify opinions in different domains", Pergamon Vol. 38, Issue 12, pp. 14799-14804, 31 December 2011.

[6] A Agarwal, B Xie, Ilia Vovsha, O Rambow, R Passonneau, "Sentiment Analysis of Twitter Data", Proceedings of the Workshop on Language in Social Media (LSM 2011), pp. 30–38, Portland, Oregon, 23 June 2011.

[7] A Esuli, F Sebastiani, "SentiWordNet: A publicly available lexical resource for SentiWordNet", In Proceedings of the   5th Conference on Language Resources and Evaluation (LRE), 10 October 2006.

[8] Ross.S.M., "Probability and Random Process", Pearson Publication, 10th edition.

[9] Chuan Sheng Foo, "Hidden Markov Models: Decoding and Evaluation", Lecture Notes.

[10] Diana Maynard, Kalina Bontcheva, Dominic Rout, "Challenges in developing opinion mining tools for social media".


Opinion Mining from User Reviews
Amiya Kumar Tripathy, Revathy Sundararajan, Chinmay Deshpande, Pankaj Mishra, Neha Natarajan

Авторизация
Забыли свой пароль?