2023年9月4日
分類学データを正確・速やか に管理するRパッケージ 「dwctaxon」の紹介
日本植物学会第87回大会
ダウンロード
発表資料
回数 : 18
- ,
- 開催年月日
- 2023年9月4日 - 2023年9月9日
- 記述言語
- 日本語
- 会議種別
- ポスター発表
- 開催地
- 札幌(オンライン)
- 国・地域
- 日本
現在のいわゆる「ビッグデータ」の時代において、生物多様性データは今までかつてにない規模になっている。 例えば、最も大きな生物多様性データベースを運営しているGBIF(地球規模生物多様性情報機構)には20億以上の出現記録及び700万以上の種名が蓄積されている。 この巨大なデータを効率よく利用するために、データ形式の標準化が不可欠である。 特に種の名前及び分布記録の標準として、ダーウィン・コア(Darwin Core、略して「DwC」)が1999年から開発されている。 DwCを使えば、別々のデータベースの間で互いにデータの交換が可能となり、様々な研究のために使えるようになる。 しかし、データベースを構築・利用する際に、それらがDwCの標準に従っているかどうかチェックできるツール、特にプログラミング言語のインターフェースにおいて使いやすいものは今までなかった。 そこで、本研究では、DwCの標準に従って種名データベースの編集およびバリデーションを行う新しいRパッケージ「dwctaxon」を開発した。 dwctaxonは柔軟性を保つと同時に、ありがちなデータベースのミス(例:種名の重複、シノニムの標準名の欠落など)をチェックできるほか、種名データベースの編集において厄介だったシノニムの編集を自動的に行うことができる。 dwctaxonは無料でオンラインで提供している(https://github.com/ropensci/dwctaxon)。
- リンク情報