Abkürzung Von Daten In Stata Forex


HINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata Datenanalyse Beispiele Trunkierte Regression Versionsinfo: Code für diese Seite wurde in Stata 12 getestet. Abgeschnittene Regression wird verwendet, um abhängige Variablen zu modellieren, für die einige der Beobachtungen werden aufgrund des Wertes der abhängigen Variablen nicht in die Analyse einbezogen. Bitte beachten Sie: Auf dieser Seite soll gezeigt werden, wie Sie verschiedene Befehle zur Datenanalyse verwenden können. Es deckt nicht alle Aspekte des Forschungsprozesses ab, den die Forscher erwarten werden. Insbesondere geht es nicht um die Datenreinigung und - prüfung, die Überprüfung von Annahmen, Modelldiagnosen oder potenziellen Folgeuntersuchungen. Beispiele für verkürzte Regression Beispiel 1. Eine Studie von Schülern in einem speziellen GATE (begabte und talentierte Bildung) Programm wünscht, die Leistung als Funktion der Sprachkenntnisse und der Art des Programms, in dem der Student derzeit eingeschrieben ist, zu modellieren. Ein wichtiges Anliegen ist, dass die Schüler eine Mindestleistung von 40 haben müssen, um das spezielle Programm zu betreten. So wird die Probe mit einer Erzählung von 40 abgeschnitten. Beispiel 2. Ein Forscher hat Daten für eine Probe von Amerikanern, deren Einkommen über der Armutsgrenze liegt. Daher wird der untere Teil der Einkommensverteilung abgeschnitten. Wenn der Forscher eine Probe von Amerikanern hatte, deren Einkommen bei oder unterhalb der Armutsgrenze lag, dann würde der obere Teil der Einkommensverteilung abgeschnitten werden. Mit anderen Worten, die Trunkierung ist ein Ergebnis der Stichprobe nur ein Teil der Verteilung der Ergebnisvariablen. Beschreibung der Daten Lets verfolgen Beispiel 1 von oben. Wir haben eine hypothetische Datendatei, truncreg. dta. Mit 178 Beobachtungen. Die Ergebnisvariable heißt achiv. Und die Sprache Test Score Variable heißt Langscore. Die Variable Prog ist eine kategorische Prädiktorvariable mit drei Ebenen, die die Art des Programms angibt, in dem die Schüler eingeschrieben wurden. Schauen wir uns die Daten an. Es ist immer eine gute Idee, mit beschreibenden Statistiken zu beginnen. Analysemethoden, die Sie vielleicht betrachten, ist eine Liste einiger Analysemethoden, die Sie möglicherweise angetroffen haben. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus dem Gefallen gefallen sind oder Einschränkungen haben. OLS Regression - Sie können diese Daten mit OLS Regression analysieren. OLS-Regression wird die Schätzungen der Koeffizienten nicht anpassen, um die Wirkung der Trunkierung der Probe bei 40 zu berücksichtigen, und die Koeffizienten können stark vorgespannt sein. Dies kann als Modellspezifikationsfehler konzipiert werden (Heckman, 1979). Abgeschnittene Regression - Abgestürzte Regression adressiert die Bias, die bei der Verwendung von OLS-Regression mit abgeschnittenen Daten eingeführt wird. Beachten Sie, dass bei abgeschnittener Regression die Varianz der Ergebnisvariablen gegenüber der nicht abgeschnittenen Verteilung reduziert wird. Auch wenn der untere Teil der Verteilung abgeschnitten ist, dann ist der Mittelwert der abgeschnittenen Variablen größer als der Mittelwert aus der nicht abgeschnittenen Variablen, wenn die Trunkierung von oben ist, wird der Mittelwert der abgeschnittenen Variablen kleiner als die nicht markierte Variable. Diese Arten von Modellen können auch als Heckman-Auswahlmodelle konzipiert werden, die verwendet werden, um die Auswahl der Selektionsvorspannung zu korrigieren. Zensierte Regression - Manchmal sind die Begriffe der Trunkierung und Zensur verwirrt. Mit zensierten Daten haben wir alle Beobachtungen, aber wir kennen nicht die wahren Werte von einigen von ihnen. Bei der Trunkierung werden einige der Beobachtungen wegen des Wertes der Ergebnisvariablen nicht in die Analyse einbezogen. Es wäre unangemessen, die Daten in unserem Beispiel mit einem zensierten Regressionsmodell zu analysieren. Abgestürzte Regression Im Folgenden verwenden wir den Befehl truncreg, um ein abgeschnittenes Regressionsmodell zu schätzen. Das i. Bevor prog anzeigt, dass es sich um eine Faktor-Variable handelt (d. h. kategorische Variable), und dass sie in das Modell als eine Reihe von Indikatorvariablen aufgenommen werden sollte. Die Option ll () im Befehl truncreg gibt den Wert an, an dem die linke Trunkierung stattfindet. Es gibt auch eine ul () - Option, um den Wert der richtigen Trunkierung anzugeben, der in diesem Beispiel nicht benötigt wurde. Die Ausgabe beginnt mit einer Notiz, die angibt, dass Null-Beobachtungen abgeschnitten wurden. Dies liegt daran, dass unsere Stichprobe keine Daten mit Werten von weniger als 40 für die Leistung enthielt. Auf die Note folgt das Iterationsprotokoll, das die Werte der Log-Likelihoods mit einem Modell abgibt, das keine Prädiktoren hat. Der letzte Wert im Protokoll ist der endgültige Wert der Log-Wahrscheinlichkeit und wird unten wiederholt. Die Header-Informationen werden als nächstes bereitgestellt. Auf der linken Seite sind die unteren und oberen Grenzen der Trunkierung und eine Wiederholung der endgültigen Log-Wahrscheinlichkeit. Auf der rechten Seite wird die Anzahl der beobachteten Beobachtungen (178) zusammen mit dem Wald-Chi-Quadrat mit drei Freiheitsgraden gegeben. Der Wald-Chi-Platz ist das, was du bekommen würdest, wenn du den Testbefehl nach der Schätzung des Modells benutzt hast, um zu testen, dass alle Koeffizienten null sind. Schließlich gibt es einen p-Wert für den Chi-Quadrat-Test. Insgesamt ist dieses Modell statistisch signifikant. In der Tabelle der Koeffizienten haben wir die verkürzten Regressionskoeffizienten, den Standardfehler der Koeffizienten, die Wald z-Tests (Koeffizienten) und den p-Wert, der jedem z-Test zugeordnet ist. Standardmäßig erhalten wir auch ein 95-Konfidenzintervall für die Koeffizienten. Mit der level () Option können Sie ein anderes Konfidenzintervall anfordern. Das Nebenstatistik-Sigma entspricht dem Standardfehler der Schätzung in der OLS-Regression. Der Wert von 8,76 kann mit der Standardabweichung der Leistung verglichen werden, die 8,96 betrug. Das zeigt eine bescheidene Reduktion. Die Ausgabe enthält auch eine Schätzung des Standardfehlers von Sigma sowie ein 95 Konfidenzintervall für diesen Wert. Das abgeschnittene Regressionsmodell, das die Leistung von Sprachwerten und Programmtypen voraussagte, war statistisch signifikant (chi-square 54.76, df 3, pWenn Sie verkürzte Regressionsmodelle vergleichen möchten, können Sie den Befehl estat ic ausgeben, um die Log-Wahrscheinlichkeit, AIC und BIC zu erhalten Die Truncreg-Ausgabe enthält weder einen R2 noch einen Pseudo-R 2. Sie können eine grobe Schätzung des Assoziationsgrades berechnen, indem sie mit dem vorhergesagten Wert korrelieren und das Ergebnis quadrieren. Der berechnete Wert von 0,31 ist eine grobe Schätzung von Die R2, die Sie in einer OLS-Regression finden würden. Die quadrierte Korrelation zwischen den beobachteten und vorhergesagten akademischen Eignungswerten beträgt etwa 0,31, was darauf hindeutet, dass diese Prädiktoren über 30 der Variabilität der Ergebnisvariablen entfielen. Die Betrachtung des Statas truncreg Befehls ist entworfen Um zu arbeiten, wenn die Trunkierung auf der Outcome-Variable im Modell ist. Es ist möglich, Proben, die auf einem oder mehreren Prädiktoren abgeschnitten sind, zu haben. Zum Beispiel ist die Modellierung College GPA als Funktion der High School GPA (HSGPA) und SAT Scores beinhaltet Eine Probe, die auf der Grundlage der Prädiktoren abgeschnitten wird, dh nur Schüler mit höheren HSGPA - und SAT-Scores werden in das College aufgenommen. Sie müssen vorsichtig sein, welcher Wert als Trunkierungswert verwendet wird, da er die Schätzung der Koeffizienten und Standardfehler beeinflusst. Im obigen Beispiel, wenn wir ll (39) anstelle von ll (40) verwendet hätten. Die Ergebnisse hätten etwas anders gewesen Es spielt keine Rolle, dass es keine Werte von 40 in unserer Probe gab. Referenzen Greene, W. H. (2003). Ökonometrische Analyse, Fünfte Auflage. Oberer Saddle River, NJ: Prentice Hall. Heckman, J. J. (1979). Beispielauswahl Bias als Spezifikationsfehler. Ökonometrie Band 47, Nr. 1, Seiten 153 - 161. Lange, J. S. (1997). Regressionsmodelle für kategorische und begrenzte abhängige Variablen. Tausend Eichen, CA: Salbei Publikationen. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden. NOTICE: Die IDRE Statistische Beratungsgruppe wird die Website migrieren die Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata FAQ: Wie kann ich einen Teil einer String-Variable mit regulären Ausdrücken extrahieren Die String-Verarbeitung ist in Stata aufgrund der vielen eingebauten String-Funktionen ziemlich einfach . Unter diesen String-Funktionen sind drei Funktionen, die sich auf reguläre Ausdrücke beziehen, regexm für Matching, Regexr für den Ersatz und Regexs für Unterausdrücke. Wir zeigen einige Beispiele für die Verwendung von regulärem Ausdruck zu extrahieren und zu ersetzen einen Teil einer Zeichenfolge Variable mit diesen drei Funktionen. Am unteren Rand der Seite ist eine Erklärung für alle regulären Ausdrucksoperatoren sowie die Funktionen, die mit regulären Ausdrücken arbeiten. Beispiel 1: Ein Forscher hat Adressen als String-Variable und möchte eine neue Variable erstellen, die nur die Postleitzahlen enthält. Beispiel 2: Wir haben eine Variable, die vollständige Namen in der Reihenfolge des Vornamens und dann des Nachnamens enthält. Wir wollen eine neue Variable mit vollem Namen in der Reihenfolge des Nachnamens erstellen und dann den Vornamen durch Komma getrennt haben. Beispiel 2: Die Daten wurden als String-Variable eingegeben, in einigen Fällen wurde das Jahr als vierstelliger Wert eingegeben (was Stata generell erwartet), aber in anderen Fällen wurde er als zweistelliger Wert eingetragen. Wir möchten eine Datumsvariable im numerischen Format auf Basis dieser Stringvariablen erstellen. Diese Aufgabe kann eigentlich problemlos mit regelmäßigen Stata-Befehlen behandelt werden, siehe unsere FAQ-Seite Meine Datumsvariable ist eine Zeichenfolge, wie kann ich sie in eine Datumsvariable verwandeln, die Stata für Informationen darüber informieren kann. Wir haben dieses Beispiel hier für Demonstrationszwecke eingeschlossen, nicht weil reguläre Ausdrücke notwendigerweise der beste Weg sind, um diese Situation zu bewältigen. In diesen Situationen können reguläre Ausdrücke verwendet werden, um Fälle zu identifizieren, in denen ein String einen Satz von Werten enthält (z. B. ein bestimmtes Wort, eine Zahl, gefolgt von einem Wort usw.) und extrahieren diesen Satz von Werten aus der gesamten Zeichenfolge für die Verwendung an anderer Stelle. Beispiel 1: Extrahieren von Postleitzahlen aus Adressen Lässt mit einigen gefälschten Adressen von Adressen beginnen. Um die Postleitzahl zu finden, suchen wir eine fünfstellige Nummer innerhalb einer Adresse. Der gen-Befehl (short for quotgeneratequot) unten sagt Stata, um eine neue Variable namens zip zu generieren. Der Rest des Kommandos ist ein wenig heikles, das Quiftetat wird zuerst ausgewertet, wenn (regexm (Adresse, 0-90-90-90-90-9)) die Variablenadresse für eine fünfstellige Zahl sucht und wenn ja Eine fünffache Zahl in der Variablenadresse finden. Die Regexs (0) zeigen an, dass Stata den Wert von Zip so einstellen soll, dass er gleich der fünfstelligen Zahl ist. Wir weisen darauf hin, dass wir eine fünfstellige Zahl wünschen, indem wir 0-9 fünfmal angeben. Sofern nicht anders angegeben, mit, Markieren, wird einer und nur einer der in Klammern enthaltenen Zeichen abgestimmt. Dies bedeutet, dass das Zusammenführen von fünf dieser Ausdrücke zusammen eine Reihe von genau fünf Ziffern finden kann. Beachten Sie, dass die 0-9 anzeigt, dass der Ausdruck mit jedem Zeichen 0 bis 9 übereinstimmen sollte (d. H. 0, 1, 2, 3, 4, 5, 6, 7, 8 und 9 sind alle Übereinstimmungen). Beispiel 1, Variation Number 1 In unserem vereinfachten Beispiel oben hat keine der Adressen fünfstellige Straßennummern. Was ist, wenn es Adressen mit fünfstelligen Straßennummern gibt, schauen wir uns einen anderen Datensatz von gefälschten Adressen an und sehen, was passiert, wenn wir versuchen, denselben Code oben zu verwenden. Anscheinend funktioniert das nicht richtig, da die letzten beiden Zeilen des Variablen-Reißverschlusses die Straßennummern für diese Adressen anstelle von Postleitzahlen abgeholt haben. In diesem Datensatz erscheint die Postleitzahl am Ende der Adressfolge. Wenn wir davon ausgehen, dass dies der Fall für alle Adressen in den Daten ist, wird das Heilmittel wirklich einfach sein. Wir können festlegen, dass Stata eine fünfstellige Zahl am Ende des Strings finden soll. Deutsch: www. tab. fzk. de/de/projekt/zusammenf...ng/ab117.htm. Beispiel 1, Variation Number 2 Manchmal enthält die Postleitzahl auch die vierstellige Erweiterung und der Ländername kann auch am Ende der Adresse erscheinen, z. B. in einigen der unten aufgeführten Adressen. Bei dieser Art von realistischer Situation funktioniert der Code in den vorherigen Beispielen nicht ordnungsgemäß, da es zusätzliche Zeichen gibt, nachdem die Postleitzahl extrahiert wurde. Hier ist, wie wir es mit einem komplizierteren regulären Ausdruck machen können. Was wir im regulären Ausdruck hinzugefügt haben, ist dieses Sub-: -0-9 a-zA-Zquot. Es gibt drei Komponenten in diesem regulären Ausdruck. - - passende Null - oder mehr Bindestriche-Ziffern 0-9 - passende Null - oder mehr Zahlen a-zA-Z - passend zu null oder mehr Leerzeichen oder Buchstaben Diese Ergänzungen erlauben uns, die Fälle, in denen es nach dem Reißverschluss hinterlässt, zusammenzufassen Code und die Postleitzahl korrekt zu extrahieren. Beachten Sie, dass wir auch quotregexs (1) anstelle von quotregexs (0) wie früher verwendet haben, weil wir jetzt Subausdrücke verwenden, die durch das Paar von Klammern in "(0-90-90-90-90-9) angegeben sind . Eine andere Strategie, die in manchen Fällen besser funktionieren könnte, ist der reguläre Ausdruck In diesem Beispiel stimmt die Periode (d. h.) jedem Charer zu, und der Asterix alleine () passt zu beliebigen Zeichen. Gemeinsam zeigen die beiden an, dass die Zahl, die wir suchen, nicht am Anfang der Saite auftreten sollte, sondern irgendwann nachher auftreten kann. Beispiel 2: Vorname und Nachname extrahieren und deren Reihenfolge umschalten Wir haben eine Variable, die einen vollständigen Namen in der Reihenfolge Vorname und dann Nachname enthält. Wir wollen eine neue Variable für den vollständigen Namen in der Reihenfolge des Nachnamens erstellen und dann den Vornamen durch Komma getrennt haben. Zum Starten können Sie einen Beispieldatensatz erstellen. Jetzt müssen wir das erste Wort und das zweite Wort erfassen und tauschen. Hier ist der reguläre Ausdruck für diesen Zweck: ((a-zA-Z) (a-zA-Z)). Es gibt drei Teile in diesem regulären Ausdruck: (a-zA-Z) - Unterausdruck, der eine Zeichenkette mit Buchstaben, Kleinbuchstaben und Großbuchstaben erfasst. Das ist der Vorname. - passend zu platz (s) Dies ist der Abstand zwischen Vorname und Nachname. (A-zA-Z) - Unterausdruck, der einen String mit Buchstaben aufnimmt. Das ist der Nachname. Das funktioniert ja Lets sehen, wie regexs in diesem Fall funktioniert. Regex identifiziert tatsächlich eine Anzahl von Abschnitten, basierend auf dem ganzen Ausdruck sowie den Unterausdrücken. Der folgende Code verwendet Regexs, um jede dieser Komponenten (Unterausdrücke) in ihre eigene Variable zu platzieren und sie dann anzuzeigen. Beispiel 3: Zwei - und vierstellige Werte für das Jahr. In diesem Beispiel haben wir Daten als String-Variable eingegeben. Stata kann dies mit Standardbefehlen behandeln (siehe quotMy Datumsvariable ist ein String, wie kann ich es in eine Datumsvariable verwandeln, die Stata erkennen kann), wir verwenden dies als Beispiel dafür, was man mit regulären Ausdrücken machen könnte. Das Ziel dieses Prozesses ist es, für jeden Fall eine Stringvariable mit dem entsprechenden vierstelligen Jahr zu produzieren, die Stata dann leicht in ein Datum umwandeln kann. Um dies zu tun, werden wir zunächst jedes Element des Datums (Tag, Monat und zwei - oder vierstelliges Jahr) in eine eigene Variable trennen, dann werden wir das richtige vierstellige Jahr in Fällen abgeben, in denen es derzeit nur gibt Zwei Ziffern, schließlich verketten wir die Variablen, um eine einzelne Stringvariable zu erstellen, die Monat, Tag und vierstellige Jahre enthält. Zuerst geben wir die Daten ein: Als nächstes wollen wir den Tag des Monats identifizieren und ihn in eine Variable mit dem Namen Tag setzen. Um dies zu tun, weisen wir Stata an, den Tag zu finden, indem wir den Anfang des Strings (d. h. das Datum) für einen oder mehrere Werte von 0-9 betrachten. (Mit anderen Worten, suche eine Nummer am Anfang der Zeile, da wir die erste Serien von Zahlen kennen, ist der Tag.) Generiere einen neuen Variablentag. Und setze diesen Wert gleich. Die Zeile der Syntax unten findet den Monat, indem man einen oder mehrere Buchstaben zusammen in der Zeichenfolge sucht. Dann erzeugt der variable Monat und setzt ihn gleich dem im String identifizierten Monat. Das Jahr ist, wo die Dinge komplexer werden. Beachten Sie, dass die Werte für die Zuweisung von Jahrhunderten auf meiner Kenntnis meiner Daten basieren. Zuerst extrahieren wir alle Ziffern für Jahr. Wir verwenden den Quarter-Operator, um anzuzeigen, dass die Suche vom Ende des Strings erfolgt. Dann drehen wir die String-Variable in eine numerische Variable mit Statas-Funktion quotrealquot. Die nächste Aktion beinhaltet den Umgang mit zweistelligen Jahren beginnend mit quot0quot. Das entspricht den letzten Jahren im einundzwanzigsten Jahrhundert. Um diese in vierstellige Jahre zu verwandeln, verknüpfen wir (mit dem) die mit dem String quot20quot identifizierten String (das zweistellige Jahr). Als nächstes finden wir die zweistelligen Jahre 10-99, und verknüpfen diese Zeichenfolgen mit dem String quot19quot. Schließlich erstellen wir das variable date2, welches unser Datum nur vierstellige Jahre enthält. (Wir könnten auch die drei Variablen, Tag, Monat und Jahr verwenden, um eine Datumsvariable mit den Stata-Datumsfunktionen zu erstellen.) Reguläre Ausdrücke Reguläre Ausdrücke sind im Allgemeinen eine Möglichkeit, nach dem Auftreten und in einigen Fällen das Vorkommen zu ersetzen Ein Muster innerhalb eines Strings, der auf einem Satz von Regeln basiert. Diese Regeln werden mit Hilfe einer Reihe von Operatoren definiert. Die folgende Tabelle zeigt alle Betreiber, die Stata akzeptiert und erklärt. Beachten Sie, dass in Stata reguläre Ausdrücke immer in Anführungszeichen fallen. Eckige Klammern zeigen an, dass eine der Zeichen in den Klammern angepasst werden sollte. Zum Beispiel, wenn ich nach einem einzigen Buchstaben zwischen f und m suchen wollte, würde ich den Befehl quot-mquot A eingeben, dass jeder Wert innerhalb dieses Bereichs akzeptabel ist. Dies ist case-sensitive, also ist a-z nicht das gleiche wie A-Z, wenn jeder Fall als Match gezählt werden kann, beinhalten beide a-zA-Z. Numerische Werte sind auch als Bereiche akzeptabel (z. B. 0-9). Eine Periode entspricht jedem Charakter. Ermöglicht es Ihnen, Zeichen zu übereinstimmen, die normalerweise reguläre Ausdrucksoperatoren sind. Zum Beispiel, wenn du mit einem Quartett übereinstimmen würdest, würdest du statt nur ein einziges schreiben. Match null oder mehr der Zeichen im vorherigen Ausdruck. Zum Beispiel, wenn ich eine Nummer aus einer oder mehreren Ziffern zusammenstellen wollte, wenn es eine Nummer gibt, aber trotzdem eine Übereinstimmung angeben möchte, wenn der Rest des Ausdrucks passt, könnte ich 0-9 anpassen. Ein oder mehrere Zeichen eingeben Im vorigen Ausdruck. Zum Beispiel, wenn ich wollte ein Wort mit einer beliebigen Kombination von Buchstaben, würde ich spezifizieren a-zA-Z Match entweder Null oder eines der vorherigen Ausdruck. Wenn es am Anfang eines Ausdrucks erscheint, zeigt ein Quittung an, dass der folgende Ausdruck am Anfang des Strings erscheinen soll. Wenn es am Ende eines Ausdrucks erscheint, zeigt ein Quittung an, dass der vorhergehende Ausdruck am Ende des Strings erscheinen soll. Zum Beispiel, wenn ich wollte eine Nummer, die das letzte, was am Ende eines Strings erscheinen würde passieren würde, würde ich quot0-9quot Der logische Operator oder, was darauf hinweist, dass entweder der Ausdruck vor oder nach ihm qualifizieren als Match. Erstellt einen Unterausdruck in einem größeren Ausdruck. Nützlich mit dem Quotorquot-Perator (d. h.) und beim Extrahieren und Ersetzen von Werten. Zum Beispiel, wenn ich einen numerischen Wert extrahieren wollte, den ich kenne, folgt direkt nach einem Wort oder einem Satz von Buchstaben, könnte ich den regulären Ausdruck a-zA-Z (0-9) verwenden, das entspricht dem ganzen Ausdruck, aber erlaubt dir Um den Teil in den Klammern auszuwählen (als Teilstring bezeichnet). Die Handhabung von Teilstrings wird nachfolgend näher erläutert. Diese Ausdrücke können kombiniert werden, um nach einer Vielzahl von Saiten zu suchen. Wie oben erwähnt, gibt es drei Arten von Funktionen, die mit regulären Ausdrücken in Stata vorgeformt werden können (wenn Sie kreativ sind, können Sie eine beliebige Anzahl von anderen Dingen mit diesen Funktionen machen, aber die grundlegenden Werkzeuge sind die eingebauten Stata-Funktionen). Stata hat getrennte Befehle für jede der drei Arten von Aktionen, die reguläre Ausdrücke ausführen können: regexm - verwendet, um passende Zeichenfolgen zu finden, wertet eine, wenn es eine Übereinstimmung gibt, und null ansonsten regexs - verwendet, um den n-ten Teilstring innerhalb eines Ausdrucks zurückzusetzen Von regexm (daher muss regexm immer vor regexs laufen, beachten Sie, dass ein quotifquot zuerst ausgewertet wird, obwohl es später auf der Zeile der Syntax erscheint). Regexr - verwendet, um einen passenden Ausdruck mit etwas anderem zu ersetzen. Jeder von ihnen hat eine etwas andere Syntax. Die folgende Zeile zeigt die Syntax für regexm. Das heißt, die Funktion, die Ihrem regulären Ausdruck entspricht, wobei die Zeichenfolge entweder eine Zeichenfolge ist, die Sie selbst eingeben, einen String aus einem Makro oder am häufigsten den Namen einer Variablen. Regulärer Ausdruck ist der reguläre Ausdruck für den String, den Sie gerne finden möchten, beachten Sie, dass er in Anführungszeichen erscheinen muss. Für regexs, das heißt, um alle oder einen Teil einer Zeichenfolge aufzurufen, ist die Syntax: Wo ist n die Nummer, die dem Teilstring zugewiesen wird, den Sie extrahieren möchten. Die Teilstrings sind tatsächlich geteilt, wenn man regexm ausführt. Der gesamte Teilstring wird in Null zurückgegeben, und jeder Teilstring wird nacheinander von 1 bis n numeriert. Zum Beispiel gibt regexm (907-789-3939, (0-9) - (0-9) - (0-9)) folgendes zurück: Beachten Sie, dass in den Unterausdrücken 1, 2 und 3 die Bindestriche fallen gelassen werden Sie sind nicht in den Klammern enthalten, die die Unterausdrücke markieren. Sie können einen weiteren Blick darauf werfen, wie dies mit der folgenden Syntax funktioniert, die den Befehl display verwendet, um die Funktion auszuführen. Weil sie Funktionen sind, arbeiten die Regex-Befehle innerhalb anderer Befehle (z. B. generieren), können aber nicht auf eigene Faust verwendet werden (d. h. Sie können keinen Befehl in Stata mit regexm (.)) Starten. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.

Comments

Popular Posts