Найдите количество слов в массиве маркируемых документов. Сотрите символы пунктуации, таким образом, они не становятся считаемыми как слова.
documents =
2x1 tokenizedDocument:
7 tokens: An example of a short sentence .
5 tokens: A second short sentence .
documents =
2x1 tokenizedDocument:
6 tokens: An example of a short sentence
4 tokens: A second short sentence