И как это открывает возможности для стартапов

Из всех задач обработки естественного языка (NLP) обобщение, возможно, является одним из наименее достойных заголовков. Сокращение содержания статьи гораздо менее впечатляюще, чем автоматическая генерация идей для стартапов с помощью GPT-3. Однако, несмотря на свой скромный профиль, реферирование текста далеко не решено, особенно в промышленности. Элементарные API-интерфейсы, предоставляемые такими громкими именами, как Microsoft, оставляют достаточно места для небольших компаний, чтобы заниматься обобщением с разных точек зрения, пока не видно явного победителя. В этой статье обсуждаются причины, по которым реферирование текста остается проблемой.

Резюме — это больше, чем преобразование текста в текст

Наивно, суммирование можно рассматривать как преобразование текста в текст посредством сжатия с потерями. На самом деле, обобщение — это проблема преобразования (текст+контекст) в текст.

При суммировании длинный текст сокращается, а менее важная информация отбрасывается. Но что важно? Сделать универсальное суждение очень сложно, так как ответ сильно зависит от предметной области текста, целевой аудитории и цели самого резюме. Например, рассмотрим научную статью о COVID-19. Должен ли краткий обзор включать какой-либо биологический жаргон или он должен быть доступен для неспециалистов? Должен ли это быть сухой список основных фактических открытий или он должен быть кратким и напряженным, чтобы убедить пользователя прочитать всю статью?

Другими словами, то, что представляет собой хорошее резюме, зависит от контекста. Суммирование — это не просто преобразование текста в текст, а проблема (текст+контекст) в текст. Универсальные API суммирования, такие как Azure Cognitive Service от Microsoft, придерживаются наивного определения преобразования текста в текст . Помимо желаемой длины сводки, они не допускают каких-либо спецификаций желаемого результата. Вот почему они не работают в реалистичных приложениях, где контекстные нюансы могут создать или сломать продукт.

Извлечение наивно, абстракция необоснованна

В поле обобщения существует установленная дихотомия: резюме может быть либо извлекающим (т. е. фрагментами исходного текста), либо абстрактным (т. е. вновь сгенерированным текстом). . Расширяющие резюме определяют местонахождение ключевых предложений в исходном тексте и, следовательно, как правило, точно отражают основную идею (если только предложения не выбраны намеренно таким образом, что это искажает ее). Недостатком является то, что экстрактивные резюме ограничены в своей способности полностью отражать содержание — пропущенные предложения навсегда теряются.

С другой стороны, абстрактные резюме более точно повторяют то, как резюмируют люди: мы собираем новые предложения, которые стремятся рассказать всю историю, но с точки зрения более высокого уровня. Однако создавать абстрактные сводки технически сложно, так как для них требуются генеративные модели, такие как семейство GPT. В настоящее время такие модели страдают галлюцинациями — их результаты могут быть фактически неверными и/или не подтверждаться исходным текстом. Это огромное препятствие для обобщения, поскольку сохранение верности введенному тексту не подлежит обсуждению. Хотя предотвращение галлюцинаций является активной областью исследований, не существует надежных решений, гарантирующих определенный уровень качества. Вот почему API абстрактного суммирования от Google все еще экспериментальны (т. е. официально не поддерживаются, как продукты, предлагаемые через Google Cloud Platform).

НЛП все еще борется с длинными документами

По определению, суммирование предполагает длинный вводимый текст; в противном случае, в первую очередь, в этом не было бы необходимости. Тем не менее, область НЛП все еще испытывает трудности с обработкой объемных документов.

Доминирующая архитектура модели Трансформатор обеспечивает максимальное количество входных токенов в несколько тысяч. Любой документ, который превышает это количество токенов, должен быть разделен на фрагменты, которые должны быть резюмированы отдельно. Конечным результатом является простое сшивание независимых подрезюме. Нам может сойти с рук этот метод для определенных типов документов, таких как новостные статьи, которые естественным образом разделены на несколько независимых разделов. Однако он становится непригодным для применения к художественным книгам, которые по своей природе содержат сложные зависимости между главами. Например, арка персонажа часто охватывает всю книгу; поскольку вложенные сводки просто объединены (и не знают друг о друге), траектория персонажа в сводке также будет фрагментирована. Ни одно предложение не может кратко описать их путешествие.

Как компании справляются с подведением итогов

Поскольку не существует универсального решения для суммирования, компании решают его очень по-разному, от ручного до полностью автоматизированного, в зависимости от характера целевых документов.

Аннотации к книгам, созданные человеком

С одной стороны, такие компании, как Blinkist и 12min, нанимают людей-экспертов для составления высококачественных аннотаций к научно-популярным книгам, которые можно прочитать менее чем за 15 минут. Хотя этот подход обеспечивает высокое качество контента, он не выходит за рамки составленного человеком списка бестселлеров, поэтому он не сработает, если ваш читательский вкус не соответствует проторенной дорожке.

Автоматические сводки для контента среднего размера

Создание резюме для контента среднего размера, такого как сообщения в блогах, новостные статьи, исследовательские работы или внутренние корпоративные документы, более поддается автоматической обработке, но все же трудоемко. Для каждого варианта использования, определяемого входной областью (например, новости, юриспруденция, медицина и т. д.) и выходным форматом (маркированные маркеры, основные моменты, сводка по одному отрывку и т. д.), требуется отдельный набор обучающих данных и, возможно, отдельно обученная модель. .

В недавнем сообщении в блоге от Google AI, в котором объявляется о новой функции автоматического создания сводок в Документах Google, приводится аргумент в пользу сбора чистыхобучающих наборов, ориентированных на определенный входной домен и обеспечивающих единый стиль. по собранным сводкам:

[…] Ранние версии корпуса [резюме] страдали от несоответствий и большого разнообразия, потому что они включали много типов документов, а также много способов написать резюме — например, академические рефераты обычно длинные и подробные, а резюме краткие. и пробивной. Это привело к созданию модели, которую легко запутать, потому что она была обучена на стольких различных типах документов и сводок, что с трудом могла понять взаимосвязь между любыми из них. […] Мы тщательно очистили и отфильтровали данные тонкой настройки, чтобы они содержали обучающие примеры, которые были более последовательными и представляли связное определение резюме. Несмотря на то, что мы уменьшили количество обучающих данных, это привело к более качественной модели. (Отрывок из Блога Google AI)

В соответствии со своим собственным советом, приведенным выше, Google предлагает разные конечные точки для своего экспериментального API абстрактного суммирования, каждая из которых ориентирована на довольно узкое приложение:

Пример стартапа: Резюме

(Эта статья не спонсируется Summari или любым другим из упомянутых продуктов.)

Отсутствие монолитной модели, способной выполнять обобщение в любом контексте, открывает большие возможности для стартапов; они могут быть сфокусированы на нишах, менее привлекательных для крупных технологий.

Например, Summari ставит перед собой задачу помочь интернет-пользователям просматривать статьи, прежде чем взять на себя обязательство прочесть их от начала до конца. В более раннем интервью основатель выразил разочарование по поводу современного уровня обобщения и изначально выбрал резюме, созданное людьми:

К сожалению, мы не получили от технологии ИИ того качества, которого хотели. Мы верим, что хорошее резюме — это искусство, это не просто копирование отдельных фраз из текста, здесь требуется более глубокое понимание, и для этого нужен человек, по крайней мере, на данный момент. (Эд Шрагер, основатель Summari, в интервью для Ness Labs)

Перенесемся примерно на год вперед: теперь Summari предлагает расширение для Chrome, которое выделяет практически любой веб-сайт с текстовым содержимым. Сводки, подготовленные людьми, без сомнения, составили чистый обучающий набор, который позволил им построить модель, которая автоматизирует и масштабирует их первоначальную миссию. Вот — их резюме для этой статьи на данный момент.

Помимо текста: аудио- и видеорезюме

По сравнению с аудио и видео, текст, возможно, является более простым способом подведения итогов. Неудивительно, что современные модели и отраслевые практики для аудио и видео отстают от текста.

Например, автоматизация сокращения подкастов практически отсутствует. Общепринятой практикой для подкастеров является выпуск коротких клипов на YouTube, созданных людьми, вырезанных из их полнометражных эпизодов (см., например, Канал Джо Рогана). Это ручной эквивалент извлекающего суммирования. В отличие от этого, Blinkist работает напрямую с создателями подкастов, чтобы дополнительно создавать более короткие версии их эпизодов, которые они называют короткими передачами — ручной эквивалент абстрактного обобщения.

Тем не менее, некоторая автоматизация в поле зрения. Такие стартапы, как Snackable, нацелены на автоматическое извлечение и объединение ключевых фрагментов из аудио- и видеофайлов, пока исключительно методом извлечения. С прогрессом в обработке и генерации видео, возможно, станет просто вопросом времени, когда для этих модальностей станет возможным абстрактное обобщение.

Заключение

Резюмирование текста — сложная задача, потому что оно сильно зависит от контекста. Из-за этого очень маловероятно, что мы придем к единому универсальному решению или что мы можем полагаться на всемогущие модели GPT для получения правильной сводки для любых обстоятельств. Этот фрагментированный ландшафт дает стартапам возможность инвестировать в чистые обучающие наборы, ориентированные на очень конкретные варианты использования и дополняющие предложения крупных технологий.

Особая благодарность Гаураву Немаде за то, что он поделился со мной своей всегда вдумчивой точкой зрения.