スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

web拍手 by FC2

参加しています にほんブログ村 英語ブログ 英語学習記録へ よろしければクリックを

--/--/-- --:-- | スポンサー広告  TOP

辞書からの単語書き出し作業途中経過

辞書からSVL未収録語を抜き出す作業ですが、ようやく1,000語に達したので途中経過を報告します。
まず、おさらい。
私が今回利用している辞書は
ニュービクトリーアンカー英和
ケンブリッジ中級英英辞典
の2点です。
並行させるのは手間なのでお勧めしません。やっておいてなんですが。

さて、せっかく迎えた区切りですので、ひとまず仮称extended vocabulary list 、略称をXVLと定めます。
そして、最初の1,000語をXVL13と呼ぶことにします。
SVLから引き続き、語彙力を高めようという意思を込めました。

また、無かったことにされたらしい熟語版SILに相当する、XIL を作ります。
現時点で898個、最終的に約9,000-10,000個が集まる見込みです。
ただし、選定基準はさらに曖昧で、いわゆる熟語や、for や to と組み合わせた際の例文なども含みます。
それでもやるのは、英検1級の語彙問題に登場する熟語部分4問の対策になる、という淡い期待と、
まぁこれくらいは暗記しようという判断からです。

ところで使用中の辞書ですが、それぞれ公称項目数または、ネット上の情報では52,000と35,000とされています。
2月にはじめて、7月までの5ヶ月で進んだのは
CIEDで68ページちょい、NVAで132ページちょいです。途中、転職のごたごたで作業が止まっていたので、実質は4ヶ月と思います。
2冊合わせた語彙の数量ですが、CIED基準で1ページあたり約*14語以上を抜き出せた計算です。*語数はNVAとの合算
で、予測では11,500語が全体で抜き出せるだろうと思われます。
また、CILD単独の場合6,000語、NVAで9,000語が抜き出せると予測されます。
よって、CILDは単語のレベルとしては18,000語レベルまで収録、NVAは21,000語レベルまで収録、
2冊を併せる事で、23,500語相当のリストを作成できることになります。*なお、収録語は実際に辞書に収録されている語数ではなく、SVLに含まれない語数+12000で計算しています。SVLに含まれていて、各辞書に含まれない言葉を確認していないからです。*
XVL13.png
↑ エクセルでの作業の様子。誤差も考え、予測値は若干少なめに見積もってます。
- 数字はH(I)からページ数、ページあたり単語数、抜き出せる合計予測数、同各辞書予測数。左の数は各辞書から抜き出した数
- 緑がCILD 燈がNVA

何で公称数から減ってるのーと叫びたくなりますが、辞書の収録語数は、我々が想像する単語というものを基準に計測していないようです。
例えば、見出し語の横に派生語として名詞形、形容詞形、副詞形、熟語など並んでますが、それをどう数えているのか不明です。
同一つづりの異なる品詞形もあります、bite, better, bitch って品詞複数あるんですってよ。それって1語?
品詞以外も過去、現在、など動詞の時制変化も1語?
また、固有名詞、人名、接尾辞/接頭辞が見出し語になっているが、それを数えているのか。
それは語彙力測定サイトの判定対象になるのか。
また、birth certificate や air base など、単語の組み合わせで意味が予測できる言葉も見出し語になっていたりします。
など、まぁいろいろ、独自の計算で加算されているようであり、また、語彙力測定サイトと基準も違うようである、と言えるかと思います。

そして、こうしたものは、(まぁ、ものによっては)アルクのSVLには含まれていません。
そのための自作XVLなのですが、そうすると、例えば語彙力測定サイトでのxx,xxx語だとかと、私が苦労して作って暗記しようとしているリストの語数は、基準が合致しません。
基準がないと、最終目標が設定できません。
では、何を基準とするか。
そのために、情報を集め、自力で検討する必要があります。

スポンサーサイト

web拍手 by FC2

参加しています にほんブログ村 英語ブログ 英語学習記録へ よろしければクリックを

2016/08/07 22:15 | ボキャビルCOMMENT(0)TRACKBACK(0)  TOP

コメント

コメントの投稿



管理者にだけ表示を許可する

 | BLOG TOP | 
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。