Багато популярні соціальні мережі та онлайн-платформи використовують детектори ненависті. Тим не менш, погана граматика і незручне правопис – умисне чи ні – можуть зробити токсичні повідомлення в соціальних мережах більш складними для виявлення детекторів ШІ.
Дослідники з Університету Аалто в Фінляндії виявили недоліки у багатьох детекторах машинного навчання, які в даний час використовуються для розпізнавання і збереження ненависної мови.
Команда поставила на тест сім сучасних детекторів мови на тему ненависті. Всі вони потерпіли невдачу. Сучасні методи обробки природної мови (NLP) можуть класифікувати текст на основі окремих символів, слів або пропозицій. Коли ж вони стикаються з текстовими даними, які відрізняються від тих, які використовуються в їх навчанні, вони починають давати збій. «Ми вставили помилки, змінили межі слів чи додали нейтральні слова в оригінальну мова про ненависть. Видалення пробілів між словами було самою потужною атакою, і комбінація цих методів була ефективною навіть проти системи оцінки рейтингу коментарів Google Perspective», – сказав Томмі Грондал, доктор Університету Аалто. Google Perspective оцінює «токсичність» коментарів з допомогою методів текстового аналізу. У 2017 році дослідники з Вашингтонського університету показали, що Google Perspective можна обдурити, представивши прості помилки.
Дослідники тепер виявили, що Perspective з тих пір стала стійкою до простих опечаток, але її можна обдурити іншими змінами, такими як видалення пробілів або додавання нешкідливих слів, таких як «любов». Пропозиція, подібне «Я тебе ненавиджу», прослизнула через сито, якщо воно було змінено на «Ihateyou love». Вчені відзначають, що в різних контекстах один і той же вислів можна розглядати як ненависне або просто образливе. Мова про ненависть є суб’єктивною і контекстно-залежною, що робить методи аналізу тексту недостатніми як самостійні рішення.
Дослідники рекомендують приділяти більше уваги якості наборів даних, що використовуються для навчання машинними навчальними моделями, замість того, щоб уточнювати дизайн моделі. Результати показують, що розпізнавання на основі символів може бути життєздатним способом поліпшення поточних додатків, кажуть вони.