Анализ текстовых данных на немецком языке

В этом примере показано, как импортировать, подготовить и проанализировать текстовые данные на немецком языке с помощью модели темы.

Немецкие текстовые данные могут быть большими и могут содержать много шума, который отрицательно влияет на статистический анализ. Для примера текстовые данные могут содержать следующее:

  • Изменения в словоформах. Например, «гниль», «рота» и «гниль».

  • Слова, которые добавляют шум. Для примера стоповые слова, такие как «der», «die» и «das».

  • Пунктуация и специальные символы.

Эти облака слов иллюстрируют анализ частоты слов, примененный к некоторым необработанным текстовым данным и предварительно обработанной версии тех же текстовых данных.

Этот пример сначала показывает, как импортировать и подготовить немецкие текстовые данные, а затем показывает, как анализировать текстовые данные с помощью модели Latent Dirichlet Allocation (LDA). Модель LDA является моделью темы, которая обнаруживает базовые темы в наборе документов и выводит слова вероятности в темах. Используйте следующие шаги в подготовке текстовых данных и подборе кривой модели:

  • Импортируйте текстовые данные из файла CSV и извлеките соответствующие данные.

  • Подготовьте текстовые данные для анализа с помощью стандартных методов предварительной обработки.

  • Подбор модели темы и визуализация результатов.

Импорт данных

Загрузите данные vorhaben.csv от https://opendata.bonn.de/dataset/vorhabenliste-b%C3%BCrgerbeteiligungen-planungen-und-projekte. Этот файл может изменяться с течением времени, поэтому результаты в примере могут варьироваться.

Использование detectImportOptions для определения формата файла CSV и установки типа текста в строку. Установите 'Encoding' опция для 'ISO-8859-15'. Считайте данные с помощью readtable и просмотрите первые несколько строк.

filename = "vorhaben.csv";
options = detectImportOptions(filename,'TextType','string','Encoding','ISO-8859-15');
data = readtable(filename,options);
head(data)
ans=8×19 table
                                                          Titel                                                                                        Adresse                                                                                                                       AktuellerBearbeitungsstand                                                                                                                                                                                        Ansprechpartnerin_Ansprechpartner                                                                                                           ArtDerB_rgerbeteiligung                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      BeschreibungDesVerfahrensBzw_Begr_ndung_WennKeineB_rgerb                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           InhaltlicheBeschreibungUndZielsetzung                                                                                                                                                                                                                                                                                                                                                                                                                                  Kategorie                      KostenB_rgerbeteiligung_soweitBezifferbar_                                                                                                                        KostenDesGesamtvorhabens                                                                                                                           LetzterPolitischerBeschlussZumVorhaben_Projekt                                                         N_chsteSchritte_geplanterZeitpunktDerUmsetzung                                  Latitude    Longitude    Schwerpunktm__igBetroffeneThemen          Stadtbezirk          VoraussichtlicheBearbeitungsdauer    Vorhabennummer         WeitereInformationen     
    _________________________________________________________________________________________________________________    ___________________________________________________________________    ____________________________________________________________________________________________________________________________________________________________________________________________________    _______________________________________________________________________________________________________________________________________________________________________________________________________________________________    ________________________________________    __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________    _________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________    _________    _______________________________________________________________________________    __________________________________________________________________________________________________________________________________________________________________________________________________________________________    ___________________________________________________________________________________________    __________________________________________________________________________________________________________    ________    _________    ________________________________    _______________________    _________________________________    ______________    ______________________________

    "Bauleitplanverfahren zur Aufstellung des vorhabenbezogenen↵Bebauungsplans Nr. 6620-1 ?Bundeskanzlerplatz?↵"         "Bundeskanzlerplatz 2-10, 53113 Bonn"                                  "Die Offenlage hat stattgefunden. Die politische Beratung und der  Satzungsbeschlusses sind erfolgt. DSN: 1810045↵"                                                                                     "Hr. Koch, Tel. 0228-77 2205, Amt 61-4,↵ Email: rainer.koch@bonn.de↵"                                                                                                                                                              "standardisiertes Beteiligungsverfahren"    "Der Bebauungsplanentwurf wird mit der Begründung und den vorliegenden umweltbezogenen Stellungnahmen und Gutachten für die Dauer eines Monats öffentlich ausgelegt. Parallel hierzu werden die Planunterlagen im Internet zur Einsichtnahme bereitgestellt. Ort und Dauer der Auslegung sowie Angaben dazu, welche Arten umweltbezogener Informationen verfügbar sind, werden mindestens eine Woche vorher ortsüblich bekanntgemacht. Die abgegebenen Stellungnahmen werden durch die Verwaltung geprüft und den zuständigen politischen Gremien mit einem Abwägungsvorschlag der Verwaltung zur Beratung und Beschlussfassung vorgelegt. Das Ergebnis wird den Verfassern/Verfasserinnen der Stellungnahmen mitgeteilt.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   "Für das Gebiet zwischen Reuterstraße, Bundeskanzlerplatz, Willy-Brandt-Allee, Eduard-Pflüger-Straße und Straßburger Weg ist der Bebauungsplan Nr. 6620-1 aufzustellen, mit dem Ziel, nach Abriss des Bonn-Centers ein Gebäudeensemble aus einem Bürohochhaus mit maximal 28 Geschossen und zwei weiteren 6 ? 7 geschossigen Bürogebäuden zu realisieren.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             ""        "Nur interne Kosten↵"                                                              "-↵"                                                                                                                                                                                                                          "Bezirksvertretung Bonn 21.04.2015 Drucksachennummer 1511116EB6↵"                              "-↵"                                                                                                           50.719      7.1169                     ""                   "Bonn"                         "Beendet↵"                         1.612e+06       "-↵"                          
    "Bauleitplanverfahren zur Aufstellung des vorhabenbezogenen↵Bebauungsplans Nr. 6522-1 "Didinkirica""                 "Graurheindorfer Straße 2-16, 53117 Bonn"                              "Vorhaben beendet↵"                                                                                                                                                                                     "Hr. Koch, Tel. 0228-77 2205,↵Amt 61-4↵E-Mail: rainer.koch@bonn.de↵"                                                                                                                                                               "standardisiertes Beteiligungsverfahren"    "Der Bebauungsplanentwurf wird mit der Begründung und den vorliegenden umweltbezogenen Stellungnahmen und Gutachten für die Dauer eines Monats öffentlich ausgelegt. Parallel hierzu werden die Planunterlagen im Internet zur Einsichtnahme bereitgestellt. Ort und Dauer der Auslegung sowie Angaben dazu, welche Arten umweltbezogener Informationen verfügbar sind, werden mindestens eine Woche vorher ortsüblich bekanntgemacht. Die abgegebenen Stellungnahmen werden durch die Verwaltung geprüft und den zuständigen politischen Gremien mit einem Abwägungsvorschlag der Verwaltung zur Beratung und Beschlussfassung vorgelegt. Das Ergebnis wird den Verfassern/Verfasserinnen der Stellungnahmen mitgeteilt.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   "Für den vorhabenbezogenen Bebauungsplan Nr. 6522-1 ?Didinkirica? der Bundesstadt Bonn, Stadtbezirk Bonn, Ortsteil Bonn-Castell, an der Graurheindorfer Straße 2-16 und der Straße Rosental ist ein Bebauungsplan aufzustellen mit der Zielsetzung, Wohnungsbau mit insgesamt rund 55 Wohneinheiten zu schaffen.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      ""        "nur interne Kosten↵"                                                              "-↵"                                                                                                                                                                                                                          "BV Bonn: 01.12.2015/Planungsausschuss 09.12.2015 Drucksachennummer 1513541 sowie 1711124↵"    "-↵"                                                                                                           50.742      7.0973                     ""                   "Bonn"                         "ca. 1 Jahr↵"                      1.612e+06       "-↵"                          
    "Bauleitplanverfahren zur Aufstellung des Bebauungsplans↵Nr. 7621-56 ?Sebastianstraße?↵"                             "Sebastianstraße 180-182, 53115 Bonn"                                  "Die Bekanntmachung des Bebauungsplanes gemäß § 10 BauGB ist im Amtsblatt Nr.25 der Bundesstadt Bonn, am 23.05.2018 erfolgt. Der Bebauungsplan ist somit in Kraft getreten.↵"                           "Hr. Koch, Tel. 0228-77 2205, Amt 61-4,↵ Email: rainer.koch@bonn.de↵"                                                                                                                                                              "standardisiertes Beteiligungsverfahren"    "Der Bebauungsplanentwurf wird mit der Begründung und den vorliegenden umweltbezogenen Stellungnahmen und Gutachten für die Dauer eines Monats öffentlich ausgelegt. Parallel hierzu werden die Planunterlagen im Internet zur Einsichtnahme bereitgestellt. Ort und Dauer der Auslegung sowie Angaben dazu, welche Arten umweltbezogener Informationen verfügbar sind, werden mindestens eine Woche vorher ortsüblich bekanntgemacht. Die abgegebenen Stellungnahmen werden durch die Verwaltung geprüft und den zuständigen politischen Gremien mit einem Abwägungsvorschlag der Verwaltung zur Beratung und Beschlussfassung vorgelegt. Das Ergebnis wird den Verfassern/Verfasserinnen der Stellungnahmen mitgeteilt.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   "Für das Gebiet zwischen Alfred-Bucherer-Straße, Sebastianstraße und dem Fußweg zwischen Röckumstraße und Endenicher Allee ist der Bebauungsplan Nr. 7621-56 aufzustellen, mit dem Ziel, das Grundstück für Wohnbauzwecke zu entwickeln unter besonderer Berücksichtigung altengerechter Wohnformen und Pflege.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       ""        "Nur interne Kosten↵"                                                              "-↵"                                                                                                                                                                                                                          "Bezirksvertretung Bonn 01.03.2016, Drucksachennummer 1610497B3↵"                              "-↵"                                                                                                           50.724      7.0779                     ""                   "Bonn"                         "Beendet↵"                         1.612e+06       "-↵"                          
    "EPICURO - European Partnership for Innovative Cities within and Urban Resilience Outlook"                           ""                                                                     "Die einzelnen Aktivitäten des Projekts wurden in einem Abschlussbericht beschrieben. Dieser Abschlussbericht wurde veröffentlicht und ist u.a. auf der städtischen Website www.bonn.de aufrufbar.↵"    "Referat Stadtförderung, Lutz Udally, Tel. 0228?77 4007,↵Email: lutz.udally@bonn.de, ↵Koordinierungsstelle Bürgerbeteiligung, Dirk Lahmann, Tel. 0228 -77 4974,↵Email: buergerbeteiligung@bonn.de↵"                                "komplexes Beteiligungsverfahren"           "Lokale Akteure sowie aus dem Zufallspanel der Bürgerbeteiligung an der Themenstellung interessierte Bürgerinnen und Bürger wurden eingeladen, sich an der Konferenz zu beteiligen.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         "In den vergangenen Jahren führte der Klimawandel zu einer Vielzahl von Folgen für die Umwelt, die Wirtschaft und die Menschen. Städte und Gemeinden sind aufgefordert sich diesen Folgen anzupassen und auf mögliche zukünftige Szenarios, bezogen auf den Klimawandel, vorzubereiten. Um diesen Anpassungsprozess zu fördern, unterstützt die EU Kommission Aktivitäten in den EU-Mitgliedsstaaten, um Europas ?Klima-Resilienz? zu stärken und die Kapazitäten, auf die Folgen des Klimawandels reagieren zu können, auszubauen. EPICURO bildet ein Netzwerk aus 11 europäischen Kommunen und öffentlichen Institutionen, das zwei Jahre lang gemeinsam an dem Ziel arbeitet, Strategien für die urbane Resilienz zu entwickeln und zu fördern. Dabei liegt ein besonderer Schwerpunkt auf der Einbindung von Bürgerinnen und Bürgern, die unmittelbar an den Projektaktivitäten teilnehmen.↵"       ""        "Nur interne Kosten↵"                                                              "Keine, da das Projekt durch EU-Fördermittel finanziert wird.↵"                                                                                                                                                               "-↵"                                                                                           "-↵"                                                                                                              NaN         NaN                     ""                   "Bonn, gesamtstädtisch"        "Im März 2018 beendet.↵"           1.701e+06       "-↵"                          
    "Bauleitplanverfahren zur Aufstellung des Bebauungsplanes Nr. 6719-3 "Schwimmbad Wasserland""                        "Christian-Miesen-Straße"                                              "Der Bebauungsplan wurde im Zeitraum vom 19.07.2018 bis zum 20.08.2018 öffentlich ausgelegt.↵"                                                                                                          "Fr. Müller, Tel. 0228-77 4473,↵ Amt 61-22 ,↵Email: bettina.mueller@bonn.de↵"                                                                                                                                                      "standardisiertes Beteiligungsverfahren"    "Öffentlicher Aushang der Planung für zwei Wochen im Stadthaus und Durchführung einer Bürgerinformationsveranstaltung zum Vorhaben und der weiteren Verfahrensschritte vor Ort.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             "Schaffung von Planungsrecht für den Bau eines neuen Familien-, Schul- und Sportschwimmbades auf den Flächen nördlich des Heizkraftwerkes in Bonn-Dottendorf.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         ""        "Vom Vorhabenträger zu tragen.↵"                                                   "Aktuell nicht bezifferbar↵"                                                                                                                                                                                                  "Beschluss des Rates vom 22.09.2016 (DS-Nr. 1612541 EB5) sowie 1710085↵"                       "Das Vorhaben wird aufgrund des erfolgreichen Bürgerentscheids vom 04.08.2018 nicht durchgeführt.↵"            50.707      7.1217                     ""                   "Bonn"                         "Bis Anfang 2018↵"                 1.701e+06       "-↵"                          
    "Bürgerbeteiligung an der Konzepterstellung für den Neubau eines Schwimmbades in Bonn-Dottendorf"                    "Christian-Miesen-Straße"                                              "In einem Bürgerbescheid haben sich die Bonnerinnen und Bonner gegen einen Neubau entschieden. Das Vorhaben ist damit abgeschlossen.↵"                                                                  "Stadtwerke Bonn ? Energie und Wasser, Peter Weckenbrock, Tel. 0228-7111, Email: kontakt@unserneuesschwimmbad.de;  ↵Koordinierungsstelle Bürgerbeteiligung Dirk Lahmann, Tel. 0228-77 4974,↵Email: buergerbeteiligung@bonn.de↵"    "komplexes Beteiligungsverfahren"           "Im Folgenden wird exemplarisch der Prozess des nächsten Schrittes ?Dialog Architektur? erläutert: Auf der Basis der Ergebnisse des Architekturwettbewerbs werden die Arbeiten in einem größeren Raum über längere Zeit (2-4 Wochen) öffentlich ausgestellt. Die Beteiligung erfolgt in Form eines Dialogs zwischen den planenden Architekten und der interessierten Öffentlichkeit. Diese wird über die Medien informiert und eingeladen. An dem Beteiligungstermin werden zunächst das Wettbewerbsverfahren sowie alle platzierten Planungen vorgestellt. Die Gründe für die Festlegung der Rangfolge der Arbeiten werden erläutert und die Planungen detailliert vorgestellt. Die Erörterung der Architektur wird in kleineren Gruppen fortgesetzt. Die Anregungen und Hinweise werden festgehalten und ausgewertet. Abschließend werden sie im Plenum unter Beteiligung des Architekten erörtert. Die Ergebnisse des Dialogs werden dem Planungsteam für die weitere Bearbeitung übergeben. Die Resultate des Dialogs sowie daraus folgende Anpassungen der Planung werden auf der Homepage veröffentlicht. Die weitere Ausgestaltung des Prozesses der Beteiligung wird im Laufe der Projektentwicklung schrittweise ausgearbeitet.↵"    "Für die begleitende Bürgerbeteiligung bei der Konzepterstellung für das neue Schwimmbad soll es zu folgenden Themen eine Beteiligung geben: Dialog Architektur, Schule und Sportbad, Barrierefreiheit, Sauna / Wellness / Spa, Rutschen / Attraktionen, Erschließung sowie dem Betrieb. Der erste Schritt der Beteiligung, die ?Bürgerwerkstatt im Zelt? hat bereits im November 2016 stattgefunden. Die weiteren Schritte der Bürgerbeteiligung erfolgen zeitlich nach dem Bürgerentscheid zum Erhalt/Weiterbetrieb des Kurfürstenbades.↵"                                                                                                                                                                                                                                                                                                                                                            ""        "Kann noch nicht beziffert werden↵"                                                "Kann noch nicht beziffert werden↵"                                                                                                                                                                                           "DS-Nr. 1613528AA4 sowie 1713161↵"                                                             "-↵"                                                                                                           50.707      7.1217                     ""                   "Bonn"                         "-↵"                               1.701e+06       "www.unserneuesschwimmbad.de↵"
    "Integriertes Handlungskonzept Grüne Infrastruktur (InHK GI) zur↵zukünftigen Freiraumsicherung im Bonner Norden↵"    "Siedlungsränder nördlich Beuel, Bonn; Gebietskulisse des Grünen C"    "Der zugrunde liegende Förderantrag wurde abgelehnt. Für die Maßnahmen aus dem IHK GI werden interkommunal in den kommenden Jahren Umsetzungsmöglichkeiten erarbeitet.↵"                                "Hr. Michels, Tel. 0228-77 4401, E-Mail: jonas.michels@bonn.de↵"                                                                                                                                                                   "komplexes Beteiligungsverfahren"           "Im Rahmen des Förderaufrufes wird ein komplexes Beteiligungsverfahren gefordert. Dieses wird mit der Erstellung des IHK durchgeführt und steht kurz vor dem Abschluss.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     "In der Gebietskulisse des Grünen C sollen die Freiräume auch zukünftig im Sinne von Naherholung, Landwirtschaft und Naturschutz gesichert und weiterentwickelt werden. Hierzu ist ein interkommunales Integriertes Handlungskonzept (InHK) notwendig, welches die zukünftige Weiterentwicklung der Freiräume regelt.Aufbauend auf dem InHK wurden über die Landesförderung "Grüne Infrastruktur" Förderanträge zur Umsetzung gestellt.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                               ""        "Nicht einzeln erfasst: Im Gesamtvolumen der Erstellung des IHKs eingebettet.↵"    "Das IHK GI enthält über 20 Maßnahmen in allen acht teilnehmenden Kommunen mit einem interkommunalen Gesamtfinanzrahmen von 6,15 Mio. ?. Der Finanzrahmen für die Maßnahmen der Bundesstadt Bonn beträgt rund 447.850 ?.↵"    "DS-NR. 1710990, 1811383↵"                                                                     "Zum jeweiligen Sachstand informiert die Verwaltung und wird entsprechende Beschlussvorlagen erarbeiten.↵"        NaN         NaN                     ""                   "Beuel"                        "ca. 5 Jahre↵"                     1.612e+06       "-↵"                          
    "Verlängerung des Teufelsbachweges bis zur L 83n"                                                                    "Teufelsbachweg zwischen Am Weidenbach und L 83n"                      "Die Vorplanung wird erarbeitet.↵"                                                                                                                                                                      "Fr. Schneider, Tel. 0228-77 4481,↵Amt 61-32 ,↵Email: ulrike.schneider@bonn.de↵"                                                                                                                                                   "standardisiertes Beteiligungsverfahren"    "Es ist eine Bürgerversammlung vorgesehen. Die Bürgerversammlung stellt eine wichtige Möglichkeit zur Beteiligung der Bürger dar. Das unmittelbar Ziel ist, die Kommunikation zu verbessern und die Förderung von Transparenz bei öffentlichen Belangen. Insofern trägt die diskursive Versammlung mittelfristig zur Konfliktprävention bei.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                "Zur Entlastung von Pützchen/Bechlinghoven vor Durchgangsverkehr und in Verbindung mit der geplanten Anschlussstelle Maarstraße bzw. Schließung der Anschlussstelle Pützchen ist vorgesehen, den Teufelsbachweg bis zur L 83n zu verlängern und als Umgehungsstraße auszubauen. Somit hätte man eine durchgängige Verbindungsstraße zwischen Pützchens Chaussee und L 83n.↵"                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            ""        "-↵"                                                                               "-↵"                                                                                                                                                                                                                          "-↵"                                                                                           "Verwaltungsinterne Abstimmung der Planung, ca. im Jahr 2020↵"                                                 50.742      7.1614                     ""                   "Beuel"                        "-↵"                               1.701e+06       "-↵"                          

Извлеките текстовые данные из переменной InhaltlicheBeschreibungUndZielsetzung (описание содержимого и цели).

textData = data.InhaltlicheBeschreibungUndZielsetzung;

Визуализируйте текстовые данные в облаке слов.

figure
wordcloud(textData);

Токенизация текстовых данных

Создайте массив токенизированных документов с помощью tokenizedDocument функция.

documents = tokenizedDocument(textData);
documents(1:10)
ans = 
  10×1 tokenizedDocument:

     50 tokens: Für das Gebiet zwischen Reuterstraße , Bundeskanzlerplatz , Willy-Brandt-Allee , Eduard-Pflüger-Straße und Straßburger Weg ist der Bebauungsplan Nr . 6620-1 aufzustellen , mit dem Ziel , nach Abriss des Bonn-Centers ein Gebäudeensemble aus einem Bürohochhaus mit maximal 28 Geschossen und zwei weiteren 6 ? 7 geschossigen Bürogebäuden zu realisieren .
     46 tokens: Für den vorhabenbezogenen Bebauungsplan Nr . 6522-1 ? Didinkirica ? der Bundesstadt Bonn , Stadtbezirk Bonn , Ortsteil Bonn-Castell , an der Graurheindorfer Straße 2-16 und der Straße Rosental ist ein Bebauungsplan aufzustellen mit der Zielsetzung , Wohnungsbau mit insgesamt rund 55 Wohneinheiten zu schaffen .
     41 tokens: Für das Gebiet zwischen Alfred-Bucherer-Straße , Sebastianstraße und dem Fußweg zwischen Röckumstraße und Endenicher Allee ist der Bebauungsplan Nr . 7621-56 aufzustellen , mit dem Ziel , das Grundstück für Wohnbauzwecke zu entwickeln unter besonderer Berücksichtigung altengerechter Wohnformen und Pflege .
    134 tokens: In den vergangenen Jahren führte der Klimawandel zu einer Vielzahl von Folgen für die Umwelt , die Wirtschaft und die Menschen . Städte und Gemeinden sind aufgefordert sich diesen Folgen anzupassen und auf mögliche zukünftige Szenarios , bezogen auf den Klimawandel , vorzubereiten . Um diesen Anpassungsprozess zu fördern , unterstützt die EU Kommission Aktivitäten in den EU-Mitgliedsstaaten , um Europas ? Klima-Resilienz ? zu stärken und die Kapazitäten , auf die Folgen des Klimawandels reagieren zu können , auszubauen . EPICURO bildet ein Netzwerk aus 11 europäischen Kommunen und öffentlichen Institutionen , das zwei Jahre lang gemeinsam an dem Ziel arbeitet , Strategien für die urbane Resilienz zu entwickeln und zu fördern . Dabei liegt ein besonderer Schwerpunkt auf der Einbindung von Bürgerinnen und Bürgern , die unmittelbar an den Projektaktivitäten teilnehmen .
     24 tokens: Schaffung von Planungsrecht für den Bau eines neuen Familien - , Schul - und Sportschwimmbades auf den Flächen nördlich des Heizkraftwerkes in Bonn-Dottendorf .
     80 tokens: Für die begleitende Bürgerbeteiligung bei der Konzepterstellung für das neue Schwimmbad soll es zu folgenden Themen eine Beteiligung geben : Dialog Architektur , Schule und Sportbad , Barrierefreiheit , Sauna / Wellness / Spa , Rutschen / Attraktionen , Erschließung sowie dem Betrieb . Der erste Schritt der Beteiligung , die ? Bürgerwerkstatt im Zelt ? hat bereits im November 2016 stattgefunden . Die weiteren Schritte der Bürgerbeteiligung erfolgen zeitlich nach dem Bürgerentscheid zum Erhalt / Weiterbetrieb des Kurfürstenbades .
     60 tokens: In der Gebietskulisse des Grünen C sollen die Freiräume auch zukünftig im Sinne von Naherholung , Landwirtschaft und Naturschutz gesichert und weiterentwickelt werden . Hierzu ist ein interkommunales Integriertes Handlungskonzept ( InHK ) notwendig , welches die zukünftige Weiterentwicklung der Freiräume regelt . Aufbauend auf dem InHK wurden über die Landesförderung " Grüne Infrastruktur " Förderanträge zur Umsetzung gestellt .
     51 tokens: Zur Entlastung von Pützchen / Bechlinghoven vor Durchgangsverkehr und in Verbindung mit der geplanten Anschlussstelle Maarstraße bzw . Schließung der Anschlussstelle Pützchen ist vorgesehen , den Teufelsbachweg bis zur L 83n zu verlängern und als Umgehungsstraße auszubauen . Somit hätte man eine durchgängige Verbindungsstraße zwischen Pützchens Chaussee und L 83n .
     29 tokens: Für das Areal der ehemaligen Landwirtschaftskammer sowie einer angrenzenden städtischen Fläche im Stadtbezirk Beuel , Ortsteil Hoholz-Roleber soll die Möglichkeit einer Umnutzung der landwirtschaftlichen Flächen für Wohnnutzung geprüft werden
     37 tokens: Für das Areal Herbert-Rabius-Straße im Stadtbezirk Beuel , Ortsteil Beuel-Mitte soll der vorhabenbezogene Bebauungsplan Nr . 6722-2 aufgestellt werden , mit dem Ziel , hier Planungsrecht für die Errichtung eines Büro - und Verwaltungsgebäudes zu schaffen .

Получение тегов части речи

Добавьте часть сведений о речи с помощью addPartOfSpeechDetails функция.

documents = addPartOfSpeechDetails(documents);

Получите сведения о лексеме, а затем просмотрите сведения о первых нескольких лексемах.

tdetails = tokenDetails(documents);
head(tdetails)
ans=8×7 table
           Token            DocumentNumber    SentenceNumber    LineNumber       Type        Language    PartOfSpeech
    ____________________    ______________    ______________    __________    ___________    ________    ____________

    "Für"                         1                 1               1         letters           de       adposition  
    "das"                         1                 1               1         letters           de       determiner  
    "Gebiet"                      1                 1               1         letters           de       noun        
    "zwischen"                    1                 1               1         letters           de       adposition  
    "Reuterstraße"                1                 1               1         letters           de       proper-noun 
    ","                           1                 1               1         punctuation       de       punctuation 
    "Bundeskanzlerplatz"          1                 1               1         letters           de       noun        
    ","                           1                 1               1         punctuation       de       punctuation 

The PartOfSpeech переменная в таблице содержит часть тегов речи лексем. Создайте облака слов из всех существительных и прилагательных, соответственно.

figure
idx = tdetails.PartOfSpeech == "noun";
tokens = tdetails.Token(idx);
subplot(1,2,1)
wordcloud(tokens);
title("Nouns")

idx = tdetails.PartOfSpeech == "adjective";
tokens = tdetails.Token(idx);
subplot(1,2,2)
wordcloud(tokens);
title("Adjectives")

Подготовка текстовых данных к анализу

Токенизация текста с помощью tokenizedDocument и просмотреть первые несколько документов.

documentsRaw = tokenizedDocument(textData);
documents = documentsRaw;
documents(1:10)
ans = 
  10×1 tokenizedDocument:

     50 tokens: Für das Gebiet zwischen Reuterstraße , Bundeskanzlerplatz , Willy-Brandt-Allee , Eduard-Pflüger-Straße und Straßburger Weg ist der Bebauungsplan Nr . 6620-1 aufzustellen , mit dem Ziel , nach Abriss des Bonn-Centers ein Gebäudeensemble aus einem Bürohochhaus mit maximal 28 Geschossen und zwei weiteren 6 ? 7 geschossigen Bürogebäuden zu realisieren .
     46 tokens: Für den vorhabenbezogenen Bebauungsplan Nr . 6522-1 ? Didinkirica ? der Bundesstadt Bonn , Stadtbezirk Bonn , Ortsteil Bonn-Castell , an der Graurheindorfer Straße 2-16 und der Straße Rosental ist ein Bebauungsplan aufzustellen mit der Zielsetzung , Wohnungsbau mit insgesamt rund 55 Wohneinheiten zu schaffen .
     41 tokens: Für das Gebiet zwischen Alfred-Bucherer-Straße , Sebastianstraße und dem Fußweg zwischen Röckumstraße und Endenicher Allee ist der Bebauungsplan Nr . 7621-56 aufzustellen , mit dem Ziel , das Grundstück für Wohnbauzwecke zu entwickeln unter besonderer Berücksichtigung altengerechter Wohnformen und Pflege .
    134 tokens: In den vergangenen Jahren führte der Klimawandel zu einer Vielzahl von Folgen für die Umwelt , die Wirtschaft und die Menschen . Städte und Gemeinden sind aufgefordert sich diesen Folgen anzupassen und auf mögliche zukünftige Szenarios , bezogen auf den Klimawandel , vorzubereiten . Um diesen Anpassungsprozess zu fördern , unterstützt die EU Kommission Aktivitäten in den EU-Mitgliedsstaaten , um Europas ? Klima-Resilienz ? zu stärken und die Kapazitäten , auf die Folgen des Klimawandels reagieren zu können , auszubauen . EPICURO bildet ein Netzwerk aus 11 europäischen Kommunen und öffentlichen Institutionen , das zwei Jahre lang gemeinsam an dem Ziel arbeitet , Strategien für die urbane Resilienz zu entwickeln und zu fördern . Dabei liegt ein besonderer Schwerpunkt auf der Einbindung von Bürgerinnen und Bürgern , die unmittelbar an den Projektaktivitäten teilnehmen .
     24 tokens: Schaffung von Planungsrecht für den Bau eines neuen Familien - , Schul - und Sportschwimmbades auf den Flächen nördlich des Heizkraftwerkes in Bonn-Dottendorf .
     80 tokens: Für die begleitende Bürgerbeteiligung bei der Konzepterstellung für das neue Schwimmbad soll es zu folgenden Themen eine Beteiligung geben : Dialog Architektur , Schule und Sportbad , Barrierefreiheit , Sauna / Wellness / Spa , Rutschen / Attraktionen , Erschließung sowie dem Betrieb . Der erste Schritt der Beteiligung , die ? Bürgerwerkstatt im Zelt ? hat bereits im November 2016 stattgefunden . Die weiteren Schritte der Bürgerbeteiligung erfolgen zeitlich nach dem Bürgerentscheid zum Erhalt / Weiterbetrieb des Kurfürstenbades .
     60 tokens: In der Gebietskulisse des Grünen C sollen die Freiräume auch zukünftig im Sinne von Naherholung , Landwirtschaft und Naturschutz gesichert und weiterentwickelt werden . Hierzu ist ein interkommunales Integriertes Handlungskonzept ( InHK ) notwendig , welches die zukünftige Weiterentwicklung der Freiräume regelt . Aufbauend auf dem InHK wurden über die Landesförderung " Grüne Infrastruktur " Förderanträge zur Umsetzung gestellt .
     51 tokens: Zur Entlastung von Pützchen / Bechlinghoven vor Durchgangsverkehr und in Verbindung mit der geplanten Anschlussstelle Maarstraße bzw . Schließung der Anschlussstelle Pützchen ist vorgesehen , den Teufelsbachweg bis zur L 83n zu verlängern und als Umgehungsstraße auszubauen . Somit hätte man eine durchgängige Verbindungsstraße zwischen Pützchens Chaussee und L 83n .
     29 tokens: Für das Areal der ehemaligen Landwirtschaftskammer sowie einer angrenzenden städtischen Fläche im Stadtbezirk Beuel , Ortsteil Hoholz-Roleber soll die Möglichkeit einer Umnutzung der landwirtschaftlichen Flächen für Wohnnutzung geprüft werden
     37 tokens: Für das Areal Herbert-Rabius-Straße im Stadtbezirk Beuel , Ortsteil Beuel-Mitte soll der vorhabenbezogene Bebauungsplan Nr . 6722-2 aufgestellt werden , mit dem Ziel , hier Planungsrecht für die Errichtung eines Büro - und Verwaltungsgebäudes zu schaffen .

Замените общие фразы (n-граммы) одной лексемой и удалите стоповые слова.

old = ["Bad" "Godesberg"];
new = "Bad Godesberg";
documents = replaceNgrams(documents,old,new);
documents = removeStopWords(documents);
documents(1:10)
ans = 
  10×1 tokenizedDocument:

    35 tokens: Gebiet zwischen Reuterstraße , Bundeskanzlerplatz , Willy-Brandt-Allee , Eduard-Pflüger-Straße Straßburger Weg Bebauungsplan Nr . 6620-1 aufzustellen , Ziel , Abriss Bonn-Centers Gebäudeensemble Bürohochhaus maximal 28 Geschossen zwei weiteren 6 ? 7 geschossigen Bürogebäuden realisieren .
    33 tokens: vorhabenbezogenen Bebauungsplan Nr . 6522-1 ? Didinkirica ? Bundesstadt Bonn , Stadtbezirk Bonn , Ortsteil Bonn-Castell , Graurheindorfer Straße 2-16 Straße Rosental Bebauungsplan aufzustellen Zielsetzung , Wohnungsbau insgesamt rund 55 Wohneinheiten schaffen .
    27 tokens: Gebiet zwischen Alfred-Bucherer-Straße , Sebastianstraße Fußweg zwischen Röckumstraße Endenicher Allee Bebauungsplan Nr . 7621-56 aufzustellen , Ziel , Grundstück Wohnbauzwecke entwickeln besonderer Berücksichtigung altengerechter Wohnformen Pflege .
    81 tokens: vergangenen Jahren führte Klimawandel Vielzahl Folgen Umwelt , Wirtschaft Menschen . Städte Gemeinden aufgefordert Folgen anzupassen mögliche zukünftige Szenarios , bezogen Klimawandel , vorzubereiten . Anpassungsprozess fördern , unterstützt EU Kommission Aktivitäten EU-Mitgliedsstaaten , Europas ? Klima-Resilienz ? stärken Kapazitäten , Folgen Klimawandels reagieren , auszubauen . EPICURO bildet Netzwerk 11 europäischen Kommunen öffentlichen Institutionen , zwei Jahre lang gemeinsam Ziel arbeitet , Strategien urbane Resilienz entwickeln fördern . Dabei liegt besonderer Schwerpunkt Einbindung Bürgerinnen Bürgern , unmittelbar Projektaktivitäten teilnehmen .
    15 tokens: Schaffung Planungsrecht Bau neuen Familien - , Schul - Sportschwimmbades Flächen nördlich Heizkraftwerkes Bonn-Dottendorf .
    57 tokens: begleitende Bürgerbeteiligung Konzepterstellung neue Schwimmbad soll folgenden Themen Beteiligung geben : Dialog Architektur , Schule Sportbad , Barrierefreiheit , Sauna / Wellness / Spa , Rutschen / Attraktionen , Erschließung sowie Betrieb . erste Schritt Beteiligung , ? Bürgerwerkstatt Zelt ? bereits November 2016 stattgefunden . weiteren Schritte Bürgerbeteiligung erfolgen zeitlich Bürgerentscheid Erhalt / Weiterbetrieb Kurfürstenbades .
    40 tokens: Gebietskulisse Grünen C sollen Freiräume zukünftig Sinne Naherholung , Landwirtschaft Naturschutz gesichert weiterentwickelt . Hierzu interkommunales Integriertes Handlungskonzept ( InHK ) notwendig , zukünftige Weiterentwicklung Freiräume regelt . Aufbauend InHK wurden Landesförderung " Grüne Infrastruktur " Förderanträge Umsetzung gestellt .
    32 tokens: Entlastung Pützchen / Bechlinghoven Durchgangsverkehr Verbindung geplanten Anschlussstelle Maarstraße bzw . Schließung Anschlussstelle Pützchen vorgesehen , Teufelsbachweg L 83n verlängern Umgehungsstraße auszubauen . Somit durchgängige Verbindungsstraße zwischen Pützchens Chaussee L 83n .
    19 tokens: Areal ehemaligen Landwirtschaftskammer sowie angrenzenden städtischen Fläche Stadtbezirk Beuel , Ortsteil Hoholz-Roleber soll Möglichkeit Umnutzung landwirtschaftlichen Flächen Wohnnutzung geprüft
    25 tokens: Areal Herbert-Rabius-Straße Stadtbezirk Beuel , Ortsteil Beuel-Mitte soll vorhabenbezogene Bebauungsplan Nr . 6722-2 aufgestellt , Ziel , hier Planungsrecht Errichtung Büro - Verwaltungsgebäudes schaffen .

Нормализуйте текст с помощью normalizeWords функция.

documents = normalizeWords(documents);
documents(1:10)
ans = 
  10×1 tokenizedDocument:

    35 tokens: gebiet zwisch reuterstrass , bundeskanzlerplatz , willy-brandt-alle , eduard-pfluger-strass strassburg weg bebauungsplan nr . 6620-1 aufzustell , ziel , abriss bonn-cent gebaudeensembl burohochhaus maximal 28 geschoss zwei weit 6 ? 7 geschoss burogebaud realisi .
    33 tokens: vorhabenbezog bebauungsplan nr . 6522-1 ? didinkirica ? bundesstadt bonn , stadtbezirk bonn , ortsteil bonn-castell , graurheindorf strass 2-16 strass rosental bebauungsplan aufzustell zielsetz , wohnungsbau insgesamt rund 55 wohnein schaff .
    27 tokens: gebiet zwisch alfred-bucherer-strass , sebastianstrass fussweg zwisch rockumstrass endenich alle bebauungsplan nr . 7621-56 aufzustell , ziel , grundstuck wohnbauzweck entwickeln besond berucksicht altengerecht wohnform pfleg .
    81 tokens: vergang jahr fuhrt klimawandel vielzahl folg umwelt , wirtschaft mensch . stadt gemeind aufgefordert folg anzupass moglich zukunft szenarios , bezog klimawandel , vorzubereit . anpassungsprozess ford , unterstutzt eu kommission aktivitat eu-mitgliedsstaat , europas ? klima-resilienz ? stark kapazitat , folg klimawandel reagi , auszubau . epicuro bildet netzwerk 11 europa kommun offent institution , zwei jahr lang gemeinsam ziel arbeitet , strategi urban resilienz entwickeln ford . dabei liegt besond schwerpunkt einbind burgerinn burg , unmittelbar projektaktivitat teilnehm .
    15 tokens: schaffung planungsrecht bau neu famili - , schul - sportschwimmbad flach nordlich heizkraftwerk bonn-dottendorf .
    57 tokens: begleit burgerbeteil konzepterstell neu schwimmbad soll folgend them beteil geb : dialog architektur , schul sportbad , barrierefrei , sauna / wellness / spa , rutsch / attraktion , erschliess sowi betrieb . erst schritt beteil , ? burgerwerkstatt zelt ? bereit novemb 2016 stattgefund . weit schritt burgerbeteil erfolg zeitlich burgerentscheid erhalt / weiterbetrieb kurfurstenbad .
    40 tokens: gebietskuliss grun c soll freiraum zukunft sinn naherhol , landwirtschaft naturschutz gesichert weiterentwickelt . hierzu interkommunal integriert handlungskonzept ( inhk ) notwend , zukunft weiterentwickl freiraum regelt . aufbau inhk wurd landesforder " grun infrastruktur " forderantrag umsetz gestellt .
    32 tokens: entlast putzch / bechlinghov durchgangsverkehr verbind geplant anschlussstell maarstrass bzw . schliessung anschlussstell putzch vorgeseh , teufelsbachweg l 83n verlang umgehungsstrass auszubau . somit durchgang verbindungsstrass zwisch putzch chausse l 83n .
    19 tokens: areal ehemal landwirtschaftskamm sowi angrenz stadtisch flach stadtbezirk beuel , ortsteil hoholz-roleb soll moglich umnutz landwirtschaft flach wohnnutz gepruft
    25 tokens: areal herbert-rabius-strass stadtbezirk beuel , ortsteil beuel-mitt soll vorhabenbezog bebauungsplan nr . 6722-2 aufgestellt , ziel , hier planungsrecht erricht buro - verwaltungsgebaud schaff .

Удалите пунктуацию с помощью erasePunctuation функция.

documents = erasePunctuation(documents);
documents(1:10)
ans = 
  10×1 tokenizedDocument:

    27 tokens: gebiet zwisch reuterstrass bundeskanzlerplatz willybrandtalle eduardpflugerstrass strassburg weg bebauungsplan nr 66201 aufzustell ziel abriss bonncent gebaudeensembl burohochhaus maximal 28 geschoss zwei weit 6 7 geschoss burogebaud realisi
    25 tokens: vorhabenbezog bebauungsplan nr 65221 didinkirica bundesstadt bonn stadtbezirk bonn ortsteil bonncastell graurheindorf strass 216 strass rosental bebauungsplan aufzustell zielsetz wohnungsbau insgesamt rund 55 wohnein schaff
    22 tokens: gebiet zwisch alfredbuchererstrass sebastianstrass fussweg zwisch rockumstrass endenich alle bebauungsplan nr 762156 aufzustell ziel grundstuck wohnbauzweck entwickeln besond berucksicht altengerecht wohnform pfleg
    64 tokens: vergang jahr fuhrt klimawandel vielzahl folg umwelt wirtschaft mensch stadt gemeind aufgefordert folg anzupass moglich zukunft szenarios bezog klimawandel vorzubereit anpassungsprozess ford unterstutzt eu kommission aktivitat eumitgliedsstaat europas klimaresilienz stark kapazitat folg klimawandel reagi auszubau epicuro bildet netzwerk 11 europa kommun offent institution zwei jahr lang gemeinsam ziel arbeitet strategi urban resilienz entwickeln ford dabei liegt besond schwerpunkt einbind burgerinn burg unmittelbar projektaktivitat teilnehm
    11 tokens: schaffung planungsrecht bau neu famili schul sportschwimmbad flach nordlich heizkraftwerk bonndottendorf
    41 tokens: begleit burgerbeteil konzepterstell neu schwimmbad soll folgend them beteil geb dialog architektur schul sportbad barrierefrei sauna wellness spa rutsch attraktion erschliess sowi betrieb erst schritt beteil burgerwerkstatt zelt bereit novemb 2016 stattgefund weit schritt burgerbeteil erfolg zeitlich burgerentscheid erhalt weiterbetrieb kurfurstenbad
    31 tokens: gebietskuliss grun c soll freiraum zukunft sinn naherhol landwirtschaft naturschutz gesichert weiterentwickelt hierzu interkommunal integriert handlungskonzept inhk notwend zukunft weiterentwickl freiraum regelt aufbau inhk wurd landesforder grun infrastruktur forderantrag umsetz gestellt
    27 tokens: entlast putzch bechlinghov durchgangsverkehr verbind geplant anschlussstell maarstrass bzw schliessung anschlussstell putzch vorgeseh teufelsbachweg l 83n verlang umgehungsstrass auszubau somit durchgang verbindungsstrass zwisch putzch chausse l 83n
    18 tokens: areal ehemal landwirtschaftskamm sowi angrenz stadtisch flach stadtbezirk beuel ortsteil hoholzroleb soll moglich umnutz landwirtschaft flach wohnnutz gepruft
    19 tokens: areal herbertrabiusstrass stadtbezirk beuel ortsteil beuelmitt soll vorhabenbezog bebauungsplan nr 67222 aufgestellt ziel hier planungsrecht erricht buro verwaltungsgebaud schaff

Визуализация необработанных и очищенных данных в облаках слов.

figure
subplot(1,2,1)
wordcloud(documentsRaw);
title("Raw Data")

subplot(1,2,2)
wordcloud(documents);
title("Cleaned Data")

Создайте функцию предварительной обработки

Создание функции, которая выполняет предварительную обработку, может быть полезно для подготовки различных наборов текстовых данных одним и тем же способом. Для примера можно использовать функцию для предварительной обработки новых данных с помощью тех же шагов, что и обучающие данные.

Создайте функцию, которая токенизирует и предварительно обрабатывает текстовые данные для использования в анализе. Функция preprocessGermanText, перечисленный в конце примера, выполняет следующие шаги:

  1. Токенизация текста с помощью tokenizedDocument.

  2. Замените многословную фразу ["Bad" "Godesberg"] с "Bad Godesberg".

  3. Удалите список стоповых слов (таких как «der», «die» и «das») с помощью removeStopWords.

  4. Нормализуйте слова, используя normalizeWords.

  5. Удалите пунктуацию с помощью erasePunctuation.

Удалите пустые документы после предварительной обработки с помощью removeEmptyDocuments функция. Удаление документов после использования функции предварительной обработки облегчает удаление соответствующих данных, таких как метки из других источников.

В этом примере используйте функцию предварительной обработки preprocessGermanText, перечисленный в конце примера, для подготовки текстовых данных.

documents = preprocessGermanText(textData);
documents(1:5)
ans = 
  5×1 tokenizedDocument:

    27 tokens: gebiet zwisch reuterstrass bundeskanzlerplatz willybrandtalle eduardpflugerstrass strassburg weg bebauungsplan nr 66201 aufzustell ziel abriss bonncent gebaudeensembl burohochhaus maximal 28 geschoss zwei weit 6 7 geschoss burogebaud realisi
    25 tokens: vorhabenbezog bebauungsplan nr 65221 didinkirica bundesstadt bonn stadtbezirk bonn ortsteil bonncastell graurheindorf strass 216 strass rosental bebauungsplan aufzustell zielsetz wohnungsbau insgesamt rund 55 wohnein schaff
    22 tokens: gebiet zwisch alfredbuchererstrass sebastianstrass fussweg zwisch rockumstrass endenich alle bebauungsplan nr 762156 aufzustell ziel grundstuck wohnbauzweck entwickeln besond berucksicht altengerecht wohnform pfleg
    64 tokens: vergang jahr fuhrt klimawandel vielzahl folg umwelt wirtschaft mensch stadt gemeind aufgefordert folg anzupass moglich zukunft szenarios bezog klimawandel vorzubereit anpassungsprozess ford unterstutzt eu kommission aktivitat eumitgliedsstaat europas klimaresilienz stark kapazitat folg klimawandel reagi auszubau epicuro bildet netzwerk 11 europa kommun offent institution zwei jahr lang gemeinsam ziel arbeitet strategi urban resilienz entwickeln ford dabei liegt besond schwerpunkt einbind burgerinn burg unmittelbar projektaktivitat teilnehm
    11 tokens: schaffung planungsrecht bau neu famili schul sportschwimmbad flach nordlich heizkraftwerk bonndottendorf

Удалите пустые документы с помощью removeEmptyDocuments функция.

documents = removeEmptyDocuments(documents);

Подгонка модели топика

Подбор модели темы латентного распределения Дирихле (LDA) к данным. Модель LDA обнаруживает базовые темы в наборе документов и выводит вероятности слов в темах.

Чтобы подогнать модель LDA к данным, вы сначала должны создать модель мешка слов. Модель мешка слов (также известная как счетчик частоты терминов) регистрирует количество раз, когда слова появляются в каждом документе набора. Создайте модель мешка слов с помощью bagOfWords.

bag = bagOfWords(documents);

Удалите пустые документы из модели мешка слов.

bag = removeEmptyDocuments(bag);

Подгонка модели LDA с семью темами с помощью fitlda. Чтобы подавить подробный выход, установите 'Verbose' на 0.

numTopics = 7;
mdl = fitlda(bag,numTopics,'Verbose',0);

Визуализация первых четырех тем с помощью облаков слов.

figure
for i = 1:4
    subplot(2,2,i)
    wordcloud(mdl,i);
    title("Topic " + i)
end

Визуализация нескольких тематических смесей с помощью сложенных столбчатых диаграмм. Просмотрите пять входных документов случайным образом и визуализируйте соответствующие тематические смеси.

numDocuments = numel(documents);
idx = randperm(numDocuments,5);
documents(idx)
ans = 
  5×1 tokenizedDocument:

      4 tokens: gastronom angebot sollt verbessert
     82 tokens: grunflach dietrichglaunerstrass rand dorfplatz entlang fussweg mehlem bach entlang rheinpromenad gesaumt hundehauf je witter verschlagt gestank mitunt atem weiss einig hundebesitz hinterlassenschaft kumm fast jederman schaut weg hundebesitz ohn anstand eben kehricht kumm grunflach sollt spiel picknick freud genuss hundeklo dien jetzt empfind zumut burg vergess mitarbeit grunamt grunpfleg regelrecht exkrement herumschlag hundesteu sollt empfind erhoht zusatz reinigungsgebuhr flankiert einnahm sollt ordnungskraft eingestellt verstoss geg sorgfaltspflicht hundehalt konsequent ahnd zud sollt zusatzeinnahm ausreich bemess kostendeck reinig offent grunflach hundekot stadtisch kraft refinanzi
    116 tokens: sportplatz plittersdorf kommt leid regelmass unschon vorfall einsehbar umfeld heruntergekomm gesichert ca jahr wurd flutlichtscheinwerf waff kaputt geschoss reparatur dauert mehr woch kostet stadt 5000 euro netz tor regelmass kaputt geschnitt schon mindest 34 tor gestang mindest 2 tor rad zerbroch wahrschein unsachgemass behandelt wurd abgeholt geschweisst kost dafur unerheb platz regelmass chipstut flasch zigarett hundehauf verdreckt obwohl hund ausfuhr eigent verbot umkleid vereinsbud desolat zustand allein fussballmannschaft sohn saison 3 fahrrad 1 sporttasch fahrradhelm geklaut word training folgend vorschlag statt geland sollt richtig zaun platz gemacht hund drauf erleicht idealerweis sollt ganz geland umzaunt richtung friedhof gotenstrass hausmeist gotenschul morg abend abgeschloss ssv plittersdorf sollt dabei unterstutzt ordent vereinsheim erstell geland aufzuwert prasenz polizei ordnungsdien
     64 tokens: mainz strass bereich geschaft kirch uberwieg beidseit zugeparkt unschon sond fussgang radfahr absolut unkomfortabel unubersicht buss steh andauernd stau gegenverkehr parkend fahrzeug durchfahrt verhind gibt fast vernunft abstellmog fahrrad mehlem zentrum attraktiv mach sollt park seit strass komplett untersagt strassenrand sollt dafur grunpflanz zb kubel installiert park sollt wenig ausnahm zb kurzparkzon poststell kostenpflicht ortszentrum schon fussgang radfahr sich ausserd okolog ansatz einzig zukunftstracht
     50 tokens: "1" "bezirksverodnet" "sollt" "kulturburgermeist" "gewahlt" "hatt" "aufgab" "vertret" "verschied" "bad godesberg" "tatig" "kulturverein" "bzw" "einricht" "theat" "galeri" "orch" "gesangsgrupp" "literaturgrupp" "filmtheat" "ua" "zwei" "drei" "mal" "jahrlich" "rund" "tisch" "einzulad" "gemeinsam" "vorhab" "zb" "kulturf" "geplant" "vorbereitet" "2" "wertvoll" "hrdlickaskulptur" "sollt" "bundesinnenministerium" "graurheindorf" "strass" "wohin" "sieb" "jahr" "entfuhrt" "wurd" "bad godesberg" "zuruckgefuhrt" "hier" "aufgestellt"

topicMixtures = transform(mdl,documents(idx));

figure
barh(topicMixtures(1:5,:),'stacked')
xlim([0 1])
title("Topic Mixtures")
xlabel("Topic Probability")
ylabel("Document")
legend("Topic " + string(1:numTopics),'Location','northeastoutside')

Пример функции предварительной обработки

Функция preprocessGermanText, выполняет следующие шаги:

  1. Токенизация текста с помощью tokenizedDocument.

  2. Замените многословную фразу ["Bad" "Godesberg"] с "Bad Godesberg".

  3. Удалите список стоповых слов (таких как «der», «die» и «das») с помощью removeStopWords.

  4. Нормализуйте слова, используя normalizeWords.

  5. Удалите пунктуацию с помощью erasePunctuation.

function documents = preprocessGermanText(textData)

% Tokenize the text.
documents = tokenizedDocument(textData);

% Replace multiword phrases
old = ["Bad" "Godesberg"];
new = "Bad Godesberg";
documents = replaceNgrams(documents,old,new);

% Remove a list of stop words.
documents = removeStopWords(documents);

% Normalize the words.
documents = normalizeWords(documents);

% Erase the punctuation.
documents = erasePunctuation(documents);

end

См. также

| | | | |

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте