講演・口頭発表等

2022年3月5日

種名の曖昧性を迅速・正確に解決するRパッケージ「taxastand」

日本植物分類学会第21回大会
  • ニッタジョエル
  • ,
  • 岩崎渉

開催年月日
2022年3月4日 - 2022年3月6日
記述言語
日本語
会議種別
ポスター発表
開催地
オンライン

近年、GBIF(Global Biodiversity Information Facility)やGenBank に代表される大規模データを活用することで、かつて想像もできなかった規模で生物多様性解析や進化解析などを行うことが可能になってきた。そうした大規模解析を行ったり、特に複数のデータセットを結合して統合解析を行ったりする上で、重要な単位となるのが「生物種」である。ところが、異なるデータセットの間で、また、時には同じデータセットの中でも、本来は同じ生物種に複数の異なった種名(シノニム)がつけられていることは少なくない。真に大規模データを活用した解析を可能にする上で、シノニムを自動的・迅速・正確に統一する汎用的なソフトウェアが不可欠となっている。本研究で開発したR パッケージ
「taxastand」は、1)標準データベースを任意に設定できるため極めて汎用的、2)完全にローカル(API を使用しない)で使えるため大規模なデータに適用可能、3)特に植物分類学上の種名表記ルールを考慮したfuzzy matching(種名や著者のスペルのミスなどがあっても統一可能)ができるため正確、という特徴を備えている。本研究では実際に日本のシダ植物を対象として、GBIF データと日本産シダ植物インデックスの結合にtaxastand を用いたとことによって、taxastand の実用性を検証できた。taxastand は https://github.com/joelnitta/taxastand から自由に利用可能である。
presentation_id: P-29