コモン・クロール

コモン・クロール
企業形態	非営利
創業者	ジル・エルバズ（英語版）
主要人物	ピーター・ノーウィグ、ノヴァ・スピバック（英語版）、カール・マラマッド（英語版）、カール・ボラッカー（英語版）、伊藤穰一
ウェブサイト	commoncrawl.org
対応言語	英語

コモン・クロール（英語: Common Crawl）は、非営利団体、501(c)団体の一つで、クローラ事業を行い、そのアーカイブとデータセットを自由提供している^[1]^[2]。コモン・クロールのウェブアーカイブは主に、2011年以降に収集された数PBのデータで構成されている^[3]。通常、毎月クロールを行っている^[4]。

コモン・クロールはジル・エルバズ（英語版）によって設立された^[5]。顧問には、ピーター・ノーヴィグと伊藤穰一が含まれる^[6]。クロールする上では、Nofollowおよびrobots.txtポリシーを尊重する。データセットを処理するためのソースコードも公開されている。

データセットには著作権で保護された作品が含まれており、それらはフェアユースに基づいたうえでアメリカ合衆国から提供されている。他国の研究者は、文章をシャッフルしたり、共通のデータセットを参照したりするなどして、他国の著作権法を回避している^[7]。

歴史

2012年、Amazon Web Servicesによってクロールを開始^[8]。

同年7月に、メタデータファイルとクローラーのテキスト出力を.arc（英語版）ファイルでリリースした^[9]。そのため、以前は.arcのファイルしか含まれていなかった^[9]。

2012年12月、blekko（英語版）は2012年2月から10月までに実施したクロールでのメタデータをコモン・クロールの検索エンジンに寄付した^[10]。寄付されたデータは、「スパム、ポルノ、過度すぎる検索エンジン最適化の影響を回避しながらクロールを改善する」のに役立つ結果になった^[10]。

2013年、カスタムクローラーの代わりにApacheソフトウェア財団のNutch（英語版）クローラーの使用を開始^[11]。2013年11月のクロールから、従来の.arcファイルの使用からWeb ARChive（英語版）形式に切り替えられた^[12]。

コモン・クロールのフィルタリングバージョンは、2020年に発表されたOpenAIのGPT-3の学習モデルに使用された^[13]。

データを使用する際の課題の1つは、膨大な量のウェブデータがあるにもかかわらず、その一部のみがより良く文書化してしまうことである。これにより、コモン・クロールのデータを使用するプロジェクトの問題を診断しようとすると、課題が発生する可能性がある。解決策としては、すべてのデータセットに、その動機、構成、収集プロセス、および推奨される用途を文書化したデータシートを添付することである^[14]。

ノーヴィグ・ウェブデータサイエンス賞

SURFnet（英語版）との協力で、コモン・クロールはノーヴィグ・ウェブデータサイエンス賞を後援している。これはベネルクスの学生、研究者に開かれたコンテストである^[15]^[16]。

脚注

^ Rosanna Xia (2012年2月5日). “Tech entrepreneur Gil Elbaz made it big in L.A.”. Los Angeles Times. http://articles.latimes.com/2012/feb/05/business/la-fi-himi-elbaz-20120205 2014年7月31日閲覧。
^ “Gil Elbaz and Common Crawl”. NBC News. (2013年4月4日). http://www.pressheretv.com/gil-elbaz-and-common-crawl/ 2014年7月31日閲覧。
^ “So you're ready to get started”. 2018年6月2日閲覧。
^ Lisa Green (2014年1月8日). “Winter 2013 Crawl Data Now Available”. https://commoncrawl.org/2014/01/winter-2013-crawl-data-now-available/ 2018年6月2日閲覧。
^ “Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222”. This Week In Startups. (2012年1月10日)
^ Tom Simonite (2013年1月23日). “A Free Database of the Entire Web May Spawn the Next Google”. MIT Technology Review. https://www.technologyreview.com/2013/01/23/253951/a-free-database-of-the-entire-web-may-spawn-the-next-google/ 2014年7月31日閲覧。
^ Schäfer, Roland. “CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws”. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (Portorož, Slovenia: European Language Resources Association (ELRA)): 4501. https://aclanthology.org/L16-1712.
^ Jennifer Zaino (2012年3月13日). “Common Crawl To Add New Data In Amazon Web Services Bucket”. Semantic Web. オリジナルの2014年7月1日時点におけるアーカイブ。. https://web.archive.org/web/20140701235708/http://semanticweb.com/common-crawl-to-add-new-data-in-amazon-web-services-bucket_b27341 2014年7月31日閲覧。
^ ^a ^b Jennifer Zaino (2012年7月16日). “Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore”. Semantic Web. オリジナルの2014年8月12日時点におけるアーカイブ。. https://web.archive.org/web/20140812101154/http://semanticweb.com/common-crawl-corpus-update-makes-web-crawl-data-more-efficient-approachable-for-users-to-explore_b30771 2014年7月31日閲覧。
^ ^a ^b Jennifer Zaino (2012年12月18日). “Blekko Data Donation Is A Big Benefit To Common Crawl”. Semantic Web. オリジナルの2014年8月12日時点におけるアーカイブ。. https://web.archive.org/web/20140812101151/http://semanticweb.com/blekko-data-donation-is-a-big-benefit-to-common-crawl_b34177 2014年7月31日閲覧。
^ Jordan Mendelson (2014年2月20日). “Common Crawl's Move to Nutch”. Common Crawl. 2014年7月31日閲覧。
^ Jordan Mendelson (2013年11月27日). “New Crawl Data Available!”. Common Crawl. 2014年7月31日閲覧。
^ Brown, Tom; Mann, Benjamin (1 June 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。
^ Gebru, Timnit; Morgenstern, Jamie (19 March 2020). "Datasheets for Datasets". arXiv:1803.09010 [cs.DB]。
^ Lisa Green (2012年11月15日). “The Norvig Web Data Science Award”. Common Crawl. 2014年7月31日閲覧。
^ “Norvig Web Data Science Award 2014”. Dutch Techcentre for Life Sciences. 2014年8月15日時点のオリジナルよりアーカイブ。2014年7月31日閲覧。

外部リンク

Common Crawl in California, United States
Common Crawl GitHub Repository with the crawler, libraries and example code
Common Crawl Discussion Group
Common Crawl Blog

frontpage hit counter