Извлечение ключевых слов с помощью RAKE
извлекает ключевые слова и соответствующие счета с помощью алгоритма быстрого автоматического извлечения ключевых слов (RAKE). Функция поддерживает английский, японский, немецкий и корейский текст. Чтобы узнать, как использовать tbl
= rakeKeywords(documents
)rakeKeywords
для других языков см. «Языковые факторы».
задает дополнительные опции, используя один или несколько аргументы пары "имя-значение".tbl
= rakeKeywords(documents
,Name,Value
)
Совет
rakeKeywords
функция по умолчанию извлекает ключевые слова с помощью стоповых слов и символов пунктуации. При использовании значений по умолчанию для 'Delimiters'
и 'MergingDelimiters'
Опций не удаляйте стоповые слова или символы пунктуации из входа текста.
Можно экспериментировать с различными алгоритмами извлечения ключевых слов, чтобы увидеть, что лучше всего работает с вашими данными. Поскольку алгоритм RAKE использует основанный на разделителе подход для извлечения ключевых слов кандидата, извлеченные ключевые слова могут быть очень длинными. Также можно попробовать извлечь ключевые слова с помощью алгоритма TextRank, который начинается с отдельных лексем в качестве ключевых слов кандидата и затем объединяет их, когда это необходимо. Чтобы извлечь ключевые слова с помощью TextRank, используйте textrankKeywords
функция. Дополнительные сведения см. в разделе Извлечение ключевых слов из текстовых данных с помощью TextRank.
[1] Роуз, Стюарт, Дэйв Энгел, Ник Крамер и Венди Коули. «Автоматическое извлечение ключевых слов из отдельных документов». Майнинг текста: приложения и теория 1 (2010): 1-20.