Извлечение ключевых слов с помощью RAKE
извлекает ключевые слова и соответствующие счета с помощью алгоритма быстрого автоматического извлечения ключевых слов (RAKE). Функция поддерживает английский, японский, немецкий и корейский текст. Чтобы узнать, как использовать tbl = rakeKeywords(documents)rakeKeywords для других языков см. «Языковые факторы».
задает дополнительные опции, используя один или несколько аргументы пары "имя-значение".tbl = rakeKeywords(documents,Name,Value)
Совет
rakeKeywords функция по умолчанию извлекает ключевые слова с помощью стоповых слов и символов пунктуации. При использовании значений по умолчанию для 'Delimiters' и 'MergingDelimiters' Опций не удаляйте стоповые слова или символы пунктуации из входа текста.
Можно экспериментировать с различными алгоритмами извлечения ключевых слов, чтобы увидеть, что лучше всего работает с вашими данными. Поскольку алгоритм RAKE использует основанный на разделителе подход для извлечения ключевых слов кандидата, извлеченные ключевые слова могут быть очень длинными. Также можно попробовать извлечь ключевые слова с помощью алгоритма TextRank, который начинается с отдельных лексем в качестве ключевых слов кандидата и затем объединяет их, когда это необходимо. Чтобы извлечь ключевые слова с помощью TextRank, используйте textrankKeywords функция. Дополнительные сведения см. в разделе Извлечение ключевых слов из текстовых данных с помощью TextRank.
[1] Роуз, Стюарт, Дэйв Энгел, Ник Крамер и Венди Коули. «Автоматическое извлечение ключевых слов из отдельных документов». Майнинг текста: приложения и теория 1 (2010): 1-20.