关于 Common Crawl - Open Repository of Web Crawl Datah

Common Crawl是一个非营利组织,致力于爬取和存档互联网的大部分内容。其使命是:

  • 促进研究:提供一个大型、开放的互联网数据集,供研究人员和学者探索和分析。
  • 保护知识:通过定期存档互联网内容,防止重要信息的丢失或损坏。
  • 支持创新:通过提供免费和易于访问的数据,促进新工具和服务的开发。

Common Crawl使用大量分布式爬虫网络,每月爬取并存档超过数十亿个网页。其数据集包含:

  • HTML、CSS和JavaScript文件
  • 图片、视频和其他多媒体内容
  • 元数据(例如标题和描述)。

Common Crawl的数据可通过其网站下载,并通过各种工具和API进行访问。它已广泛用于研究、机器学习和开发新技术。