Created
December 5, 2015 17:57
-
-
Save syu-id/a2f6d0500a0778401139 to your computer and use it in GitHub Desktop.
2015.12.04-learner_corpus-2
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
トークン数と TTR について少し数学的に考えてみると、プロットの結果が当たり前のことです。 | |
トークン数とタイプ数は線形的な関係にあると仮定します。 | |
$$ | |
type = \beta_0 + \beta_1 \cdot token | |
$$ | |
$token = 1$ の場合、$type=1$ になるので、$\beta_0$ と $\beta_1$ の和が $1$ に決まっています。 | |
$$\beta_0 + \beta_1 = 1$$ | |
もし全ての単語が異なっているのなら、$type = token, \: \beta_1 = 1$になります。もし全ての単語が同じなら、$type = 1, \: \beta_1 = 0$ になります。$\beta_1$ の範囲は、$0$ から $1$ までです。 | |
$$0 \le \beta_1 \le 1$$ | |
TTR については、以下の関係が成り立ちます。 | |
$$ | |
\begin{eqnarray} | |
TTR & = & \frac{type}{token} \\ | |
& = & \beta_0 \cdot \frac{1}{token} + \beta_1 \\ | |
& = & (1 - \beta_1) \cdot \frac{1}{token} + \beta_1 | |
\end{eqnarray} | |
$$ | |
トークン数とタイプ数が同じ線形関係に従うという2つのテキスト $i$ と $j$ があって、そのトークン数が $token_i < token_j$ であるのなら、TTR の差が下のようになります。 | |
$$ | |
\begin{eqnarray} | |
TTR_i - TTR_j & = & (1- \beta_1) \cdot (\frac{1}{token_i} - \frac{1}{token_j}) \\ | |
& = & (1- \beta_1) \cdot \frac{token_j - token_i}{token_i \cdot token_j} | |
\end{eqnarray} | |
$$ | |
$1 \le token_i < token_j$ であるので、$0 \le \beta_1 < 1$ である限り、$TTR_i > TTR_j$ になります。$\beta_1 = 1$ つまり $type = token$ だと、TTR が常に $1$ であり、差が $0$ になります。 | |
したがって、$type < token$ である限り、トークン数が増えると、TTR が小さくなります。 | |
---- | |
GI については、以下の関係が成り立ちますが、複雑そうです。 | |
$$ | |
\begin{eqnarray} | |
GI & = & \frac{type}{\sqrt{token}} = TTR \cdot \sqrt{token} \\ | |
& = & (1 - \beta_1) \cdot \frac{1}{\sqrt{token}} + \beta_1 \cdot \sqrt{token} | |
\end{eqnarray} | |
$$ |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment