top of page

オープンデータ公開に向けたワーク

データクレンジング

編著者:

茨城県つくば市 家中賢作、朝日航洋株式会社 新井千乃

オープンデータ

データクレンジング

ツール概要

​ 

データクレンジングは、利活用されるオープンデータの正確性・一貫性・信頼性・有用性を確保するために不可欠な工程です。特に、オープンデータの利活用においては、対象のデータを機械判読に適した形式に変換することが重要となります。

 機械判読に適したデータとは、コンピュータが自動的に処理しやすい形式のデータを指し、その代表例が「CSV形式」です 。CSV形式のデータは、様々なソフトウェアで開き、編集することができます。また、多様なシステムで情報を読み込み、利用することが可能ですが、それには読み込みやすい形に整っている必要があります 。

 本ツールは、「機械判読性のあるデータ」とは何かを理解し、データを機械判読可能な形式に置き換える方法を学ぶためのものです。

利用者・活用シーン

​ 

データを利活用するには、まず利活用可能なデータが存在することが前提となります。行政機関等におけるデータ利活用では、利用・閲覧が庁内に限定されるデータをどのように有効活用するかが重要なポイントとなります。そのため、単にデータを活用するだけでなく、庁内でデータを提供し合うこととデータ利用を促進することの両方が求められます。

 機械判読性のあるデータが提供されることによって、利用側でデータクレンジングの手間が省け、データ分析やデータ連携がスムーズになるほか、変換に伴うミスが少なくなり、より正確な活用が可能になります。データの利便性や有用性が向上することで、オープンデータの活用が一層促進されることになります。

 本ワークを通じて得られる知識は、データの利用者だけでなく、将来的にデータを提供する立場になり得る全ての行政機関等の職員にとって有益です。

ツールレベル

初級

ツールレベルとは ・初級:特段の事前学習を要さず、本実践ガイドの学習のみで活用可能 ・中級:関連フレームワークについて別途研修等により学習済みであることが前提 ・上級:関連フレームワークをすでに実践済みであること、又は、個別の知識領域に関する高度な知見があることが前提

-

ダウンロード

 

 

クリエイティブ・コモンズ(CC BY-SA 4.0)の適用を条件に改変・再配布可能

前提・留意事項

なし


-

■意義・特徴


上図の ①と②のどちらが機械判読性のあるデータでしょうか?正解は②です。①は表題が付与され、セル結合が施されるなど、人が読みやすいように整理されていますが、主に資料として閲覧するためのものです。一方、②は資料としては必ずしも見やすいとは言えませんが、コンピュータにとっては処理しやすい形式となっています。このようなデータは、データベース構造を持つデータとも表現されます[1]


(人が読みやすいデータと機械判読性のあるデータの違い)


① 人が読みやすいデータ:標題や小見出しがあり、情報のグループ化が明確であり、セル結合や色分けでデータ間やグループ間の差異が強調されている、すなわち視覚的に整理されているデータ

② 機械判読性のあるデータ: 1行1レコード、1列1項目であり、セル結合や装飾がない、いわば統一された構造を持つデータ