yuribonder.com

Экономика торговли.
»

Главная Новости

Автоматические определители языков

Опубликовано: 27.08.2018

Иногда мы сталкиваемся с текстом на незнакомом нам языке. Стандартные способы определения языка не помогают. Как узнать, на каком языке он написан? В этом вам помогут автоматические определители языков.

Как работает определитель языка (guesser)

Автоматический определитель языка называют иногда guesser . Он позволяет по введенным нескольким словам определить язык, на котором они написаны. Технически, определение языка реализуется при помощи словаря.

Введенный текст разбивается на слова, и они сравниваются со словами из базы определителя. В результате подсчитывается количество совпадений слов разных языков, и выводится отчет в виде названия одного языка или списка языков, которые были признаны наиболее подходящими.

Однако, работа автоматического определителя языка не так проста : система должна учитывать лексические особенности языков , правила построения предложений , различия в диалектах , и другие особенности. Поэтому, сервисы автоматического определения языка предоставляются обычно разработчиками систем машинного перевода. Результат определения языка не может быть 100% точным. Обычно определитель языка также сообщает, с какой вероятностью ему удалось определить язык. Чем больше символов текста вы укажете, тем более точным будет определение.

Автоматический определитель языка от Xerox

Определитель языка от Xerox основан на экспериментальных разработках компании. Кроме определения языка система также также распознает кодировку. Эффективность определения языка этой системой — высокая.

Автоматический определитель языка Talenknobbel

Как повысить правильность определения языка

При использовании систем автоматического определения языка текста необходимо знать некоторые особенности: Используйте не менее 20-ти слов (чем больше, тем лучше). Проверяйте текст на ошибки перед определением языка. Вводите в определитель ту часть текста, которая позволит эффективнее определить язык (например, слова с наличием нестандартных букв, надстрочных и подстрочных символов, и т.д.). Для более точного результата воспользуйтесь несколькими сервисами.

Автоматический определитель языка TextCat

Определитель языка TextCat — реализация алгоритма классификации текста (W. B. Trenkle и J. M. Trenkle, «N-Gram-Based Text Categorization»), который был представлен на третьем ежегодном симпозиуме по технологиям анализа документов и поиска информации, проходившем в Лас-Вегасе в апреле 1994 года. Определитель поддерживает 69 языков.

Автоматический определитель языка Verbix

Определитель языка создан независимой некоммерческой организацией Verbix, основной деятельностью которой является сохранение языкового разнообразия на нашей планете.

Автоматический определитель языка Translated Labs

Определитель языка разработан исследовательским центром Translated Labs (T-Labs), который занимается изучением семантики языков и разработкой языковых моделей для создания автоматизированных комплексов по работе с информацией: поисковых систем, систем анализа данных, систем машинного перевода.

Определитель языка Полиглот 3000

Разработчик: Likasoft
Тип лицензии: Freeware
Требования: 95/98/NT/ME/2000/XP/Vista
Полиглот 3000 — это уникальный автоматический определитель языка, предназначенный для быстрого и корректного ответа на вопрос: «На каком языке написан текст?» . Программа распознает более 400 языков, быстро и качественно определяет язык введенного текста, имеет многоязычный интерфейс. Программа бесплатна, и будет полезна всем, кто постоянно сталкивается с иностранными языками или часто задает вопрос «Какой это язык?» . Подробнее о Полиглот 3000 →

Как определить язык текста?

Если вы столкнулись с текстом на незнакомом вам языке, и если у вас возник вопрос «Какой это язык?» , можно попробовать определить его самостоятельно. Это не так уж и сложно. В каждом языке есть свои определенные особенности, которые помогают его распознать: набор знаков, подстрочных и надстрочных символов, направление письма, и пр. Наверняка вы без труда сможете распознать основные языки.

Вы также можете просто воспользоваться одним из автоматических определителей языка. В этом случае от вас вообще не требуется никаких усилий, достаточно просто вставить текст в определитель.

Определить, на каком языке написан текст, может потребоваться, например, для того, чтобы воспользоваться онлайн-переводчиком. Некоторые переводчики умеют самостоятельно определять язык, но большая часть из них требуют указания языка вручную.
Все права защищены
rss