スクレイピングのやり方の前に学ぶべきこと〜違法にならないために〜

スクレイピングはその界隈では著名なワードとなっていて、やり方を学ぼうとする方も多いのではないでしょうか?

最近ではスクレイピングのやり方をネットで学ぶ方も増えています。

「スクレイピング やり方」と調べれば、大量の情報を見つけることができるでしょう。

しかし、スクレイピングを学ぶには気をつけなければならないことがたくさんあります。

スクレイピングは便利な技術ですが、やり方を間違えてしまうと違法なことに知らず知らずのうちに手を出してしまうことになりうるのです。

スクレイピングを学ぶまえに知っておくべきことを紹介します。

スクレイピングとは


関連画像
スクレイピングとはwebサイトからデータを取得し、そのデータを加工して新しい情報を生成することです。

webスクレイピングとも言われることがあり、スクレイピングを行うプログラムをスクレイパーと言います。

ここではスクレイピングの注意点について解説したいので、簡単にしか説明しませんが以下の記事には詳しく書いてありますので参考にどうぞ。

スクレイピングとは?クローリング、APIと比較するとよく分かる!

スクレイピングでできること&応用でできること

スクレイピングの違法なやり方


それでは早速やり方を学び、スクレイピングを実行するまえに学ぶべき注意点を解説していきたいと思います。

大きく以下の3つございますので、是非ともご覧ください。

  • 1. 著作権法に触れるやり方
  • 2. 利用規約に抵触するやり方
  • 3. サーバーへの過度にアクセスするやり方

順番に見ていきましょう。

スクレイピングの違法なやり方①著作権法に触れるやり方


スクレイピング外部のウェブサイトから情報を収集するので、取得先の著作権を侵害しているやり方の場合があります。

外部のコンテンツにオリジナリティがあれば著作権法に違反する可能性があります。

著作権のあるコンテンツを保存したり、コピーしたりするやり方は、著作権者の同意がない場合には著作権の侵害になります。

しかし以下の二つ場合では著作権が自由に使えます。

著作権が自由に使える場合


・検索エンジン

GoogleやYahooのようなweb上の検索サービスは著作物を公共に配信していてもよいとされています。

送信可能化された情報の送信元識別符号の検索等のための複製等(第47条の6)
インターネット情報の検索サービスを業として行う者は、違法に送信可能化された著作物以外であれば、サービスを提供するために必要と認められる限度で、著作物の複製・翻案・自動公衆送信を行うことができる。
引用:文化省

・スクレイピングしたデータの使用目的が情報解析

スクレイピングをした先が著作物だったとしても、それを解析し、新たな価値を生み出すことは認められています。

情報解析のための複製等(第47条の7)
コンピュータ等を用いて情報解析(※)を行うことを目的とする場合には,必要と認められる限度において記録媒体に著作物を複製・翻案することができる。
ただし,情報解析用に広く提供されているデータベースの著作物については,この制限規定は適用されない。
※情報解析とは,大量の情報から言語,音,映像等を抽出し,比較,分類等の統計的な解析を行うことをいう。
引用:文化省

スクレイピングの違法なやり方②利用規約に抵触するやり方


webサービスやアプリの利用を開始する際に、細かい文字の長文が現れ、画面をスクロールして同意のチェックボックスにクリックをした経験はありませんか?ご存知かと思いますがこれが利用規約です。

このチェックボックスに同意することで、事業者と利用者との間に契約がなされます。

この利用規約の中には「スクレイピングをしません」「スクレイピングをした場合には損害賠償が請求されます」と言った内容のことが記載されている場合が多いです。

いくつかの条件が必要ですが、利用規約に法的拘束力が認められた場合に、利用規約に違反した場合には民法上の債務不履行や不法行為に該当する可能性があります。

その場合、事業者から損害賠償請求や差止を請求される可能性があります。

反対に、会員登録を必要とせず、誰でも閲覧できる情報をスクレイピングするような場合には、その多くの場合が事業者とユーザーとの間に契約関係はないため、利用規約違反の問題は出てこないことになります。

スクレイピングの違法なやり方③サーバーに負荷をかけるやり方


スクレイピングによって過度なアクセスを引き起こした場合には、スクレイピングが違法なやり方で行われる場合があります。

スクレイピングが何回行われたのか、と言ったような具体的な基準はありませんが、相手の業務を妨害したのかどうかが判断基準となります。

過去に有名な事例として岡崎氏中央図書館事件があります。

スクレイピングを使ってサーバーに負荷をかけてしまった例です。

岡崎市中央図書館事件


岡崎市立中央図書館事件は、2010年3月ごろに岡崎市立図書館の蔵書検索システムにアクセス障害が発生し、利用者の一人が逮捕された事件です。

逮捕された利用者に障害を引き起こす意図はなく、また原因として図書館側のシステムに不具合があったことから物議を醸しました。

TechOrderを使い必要な情報のみをインターネットから抽出する!


いかがでしたか?スクレイピングの違法なやり方についての理解に少しでもお役にたてれば光栄です。

しかし、ルールさえ知っていればスクレイピングは大変役に立つ技術です。

例えばTechOrderという会社ではクローラーを開発して、web上のデータを集めます。

TechOrderでは、AIを活用し【必要な情報だけをWeb上から取得するWebクローラー】を開発します。

Web上の情報は、ほぼ全て自動取得が可能です! こんなご要望にお応えします。

  • ・あのサイトに掲載されている企業情報を取得して、営業リストを作成したい
  • ・あのサイトの価格情報を取得して、分析資料を作成したい
  • ・大手不動産ポータルサイトに掲載されている物件情報を取得し、市場調査したい

まずはTechOrderに問い合わせをして資料請求やベーシックプランの相談してみましょう。

お問合わせはこちらから
http://techorder.jp/