Последние новости
22 ноября 2024
21 ноября 2024

Европейские программисты создали универсальный распознаватель аббревиатур

3 октября 2013, 19:31
no image

Европейские программисты предложили алгоритм, который позволяет распознавать аббревиатуры и их расшифровку в текстах на 22 языках.

Безымянный

Методику поиска аббревиатур группа ученых описала в статье, препринт которой доступен в архиве Корнельского университета. Краткое описание исследования приводится в блоге Technology Review.

Алгоритм показал эффективность около 90 процентов при анализе массива из 400 статей на семи языках: английском, венгерском, испанском, немецком, румынском, французском и чешском. Для определения точности поиска расшифровок аббревиатуры из всех статей были предварительно определены вручную.

Сама методика основана на том принципе, что в стандартных новостных или научных текстах аббревиатура обычно заключена в скобки и расположена сразу после расшифровки термина или названия. Например: Организация объединенных наций (ООН).

Вместе с тем, в работу алгоритма авторам исследования пришлось внести корректировки, связанные с определенными отклонениями от стандартов. Так, в скобках в тексте могли указывать сокращение титула или должности после имени человека, либо использовать англоязычную аббревиатуру в статье на другом языке.

Потенциальной областью применения своей разработки ученые назвали программы для автоматического анализа новостных и научных статей на основе статистики использования тех или иных аббревиатур. Для этого они планируют создать каталог аббревиатур с расшифровками на разных языках.

В отличие от предложенного авторами работы алгоритма, для систематического анализа сложных текстов как правила применяются обучаемые нейронные сети. В частности, подобный механизм решили использовать разработчики Facebook для анализа поведения пользователей и подбора наиболее подходящей информации в новостные ленты.

Все статьи