๊ฐœ์š”

Common Crawl์€ 2007๋…„ Gil Elbaz์— ์˜ํ•ด ์„ค๋ฆฝ๋œ 501(c)(3) ๋น„์˜๋ฆฌ ์กฐ์ง์œผ๋กœ, ์›น์„ ํฌ๋กค๋งํ•˜๊ณ  ์ˆ˜์ง‘ํ•œ ์•„์นด์ด๋ธŒ์™€ ๋ฐ์ดํ„ฐ์…‹์„ ๋ฌด๋ฃŒ๋กœ ๊ณต๊ฐœํ•˜๋Š” ํ”„๋กœ์ ํŠธ๋‹ค.1 โ€œ์˜คํ”ˆ ์›น ๋ฐ์ดํ„ฐ์˜ ๋Œ€๊ทœ๋ชจ ์ถ”์ถœ, ๋ณ€ํ™˜, ๋ถ„์„์„ ์—ฐ๊ตฌ์ž๋“ค์ด ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ ๋‹คโ€๋Š” ๋ฏธ์…˜์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

์—ญ์‚ฌ ๋ฐ ๊ทœ๋ชจ

Common Crawl์€ 2008๋…„๋ถ€ํ„ฐ ์ •๊ธฐ์ ์œผ๋กœ ์›น ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•ด์™”์œผ๋ฉฐ, ๋Œ€๋žต ์›” 1ํšŒ ํฌ๋กค๋ง์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.2 15๋…„ ์ด์ƒ ์ถ•์ ๋œ ๋ฐ์ดํ„ฐ๋Š” 500์–ต ๊ฐœ ์ด์ƒ์˜ ์›น ํŽ˜์ด์ง€๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ๋งค๋‹ฌ ์ˆ˜์–ต ๊ฐœ์˜ ์ƒˆ๋กœ์šด ํŽ˜์ด์ง€๊ฐ€ ์ถ”๊ฐ€๋œ๋‹ค. ์ „์ฒด ์ฝ”ํผ์Šค๋Š” ํŽ˜ํƒ€๋ฐ”์ดํŠธ ๊ทœ๋ชจ์— ๋‹ฌํ•œ๋‹ค.

2012๋…„๋ถ€ํ„ฐ Amazon Web Services(AWS)์— ํ˜ธ์ŠคํŒ…๋˜์–ด ์žˆ์œผ๋ฉฐ, AWS Public Data Sets ํ”„๋กœ๊ทธ๋žจ์„ ํ†ตํ•ด ๋ฌด๋ฃŒ๋กœ ์ ‘๊ทผ ๊ฐ€๋Šฅํ•˜๋‹ค.

๊ธฐ์ˆ  ๊ตฌ์กฐ

ํฌ๋กค๋ง ๋ฐฉ์‹

Common Crawl์€ 2013๋…„๋ถ€ํ„ฐ Apache Nutch ์›นํฌ๋กค๋Ÿฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•œ๋‹ค. ํฌ๋กค๋ง ์‹œ robots.txt์™€ nofollow ๋“ฑ์˜ ์›น ํฌ๋กค๋ง ์ •์ฑ…์„ ์ค€์ˆ˜ํ•œ๋‹ค.3

๋ฐ์ดํ„ฐ ํ˜•์‹

์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ํ˜•์‹์œผ๋กœ ์ œ๊ณต๋œ๋‹ค:

  • WARC ํŒŒ์ผ: ํฌ๋กค๋ง ์›์‹œ ๋ฐ์ดํ„ฐ๋กœ, ํฌ๋กค๋ง ํ”„๋กœ์„ธ์Šค๋ฅผ ์ง์ ‘ ๋งคํ•‘ํ•œ ํ˜•ํƒœ
  • WAT ํŒŒ์ผ: WARC ํ˜•์‹์— ์ €์žฅ๋œ ๋ ˆ์ฝ”๋“œ์˜ ์ค‘์š”ํ•œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ํฌํ•จ
  • WET ํŒŒ์ผ: ์ถ”์ถœ๋œ ์ˆœ์ˆ˜ ํ…์ŠคํŠธ๋งŒ ํฌํ•จ

2013๋…„ 11์›”๋ถ€ํ„ฐ ๊ธฐ์กด .arc ํ˜•์‹์—์„œ .warc ํ˜•์‹์œผ๋กœ ์ „ํ™˜ํ–ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์ ‘๊ทผ

Common Crawl ๋ฐ์ดํ„ฐ๋Š” ๋ˆ„๊ตฌ๋‚˜ ๋ฌด๋ฃŒ๋กœ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋‹ค:

  • AWS S3 ๋ฒ„ํ‚ท (s3://commoncrawl/)์—์„œ ์ œ๊ณต
  • HTTP(S)๋ฅผ ํ†ตํ•ด ๋‹ค์šด๋กœ๋“œ ๊ฐ€๋Šฅ
  • AWS ํด๋ผ์šฐ๋“œ ๋‚ด์—์„œ ์ง์ ‘ ๋ถ„์„ ๊ฐ€๋Šฅ
  • URL ์ธ๋ฑ์Šค๋ฅผ ํ†ตํ•œ ์ฝ”ํผ์Šค ๊ฒ€์ƒ‰ ์ง€์›

์–ธ์–ด ๊ตฌ์„ฑ

Common Crawl์€ ๋‹ค์–‘ํ•œ ์–ธ์–ด๋ฅผ ์ž๋™์œผ๋กœ ์‹๋ณ„ํ•˜์—ฌ ๋ถ„๋ฅ˜ํ•œ๋‹ค. ์–ธ์–ด๋ณ„ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์ฃผ์š” ์–ธ์–ด ๋น„์œจ (2023๋…„ 3์›” ๊ธฐ์ค€)

  • ์˜์–ด: 46%4
  • ๋…์ผ์–ด, ๋Ÿฌ์‹œ์•„์–ด, ์ผ๋ณธ์–ด, ํ”„๋ž‘์Šค์–ด, ์ŠคํŽ˜์ธ์–ด, ์ค‘๊ตญ์–ด: ๊ฐ 6% ๋ฏธ๋งŒ
  • ํ•œ๊ตญ์–ด: ์•ฝ 0.75-0.78% (2025๋…„ ํฌ๋กค ์•„์นด์ด๋ธŒ ๊ธฐ์ค€)5

ํ•œ๊ตญ์–ด ๋ฐ์ดํ„ฐ

Common Crawl์˜ ํ•œ๊ตญ์–ด ๋ฐ์ดํ„ฐ๋Š” ๋น„๋ก ์˜์–ด์— ๋น„ํ•ด ์ ์€ ๋น„์ค‘์ด์ง€๋งŒ, ๋‹ค๊ตญ์–ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์—ฐ๊ตฌ์™€ ํ•œ๊ตญ์–ด ์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค.

2025๋…„ ํฌ๋กค ์•„์นด์ด๋ธŒ ํ†ต๊ณ„:

  • CC-MAIN-2025-30: 0.7753%
  • CC-MAIN-2025-33: 0.7565%
  • CC-MAIN-2025-38: 0.7754%

ํ•œ๊ตญ์–ด๋Š” Common Crawl์˜ ์ค‘๊ฐ„ ๊ทœ๋ชจ ์–ธ์–ด๊ตฐ์— ์†ํ•˜๋ฉฐ, ์ผ๊ด€๋˜๊ฒŒ ์•ฝ 0.75-0.78%์˜ ๋น„์œจ์„ ์œ ์ง€ํ•˜๊ณ  ์žˆ๋‹ค.

ํŒŒ์ƒ ๋ฐ์ดํ„ฐ์…‹

Common Crawl์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์—ฌ๋Ÿฌ ์ •์ œ๋œ ๋‹ค๊ตญ์–ด ๋ฐ์ดํ„ฐ์…‹์ด ๊ฐœ๋ฐœ๋˜์—ˆ๋‹ค:

OSCAR (Open Super-large Crawled Aggregated coRpus)

151๊ฐœ ์–ธ์–ด๋ฅผ ์ง€์›ํ•˜๋Š” ๋‹ค๊ตญ์–ด ์ฝ”ํผ์Šค๋กœ, Common Crawl์˜ WET ํŒŒ์ผ์—์„œ ์ถ”์ถœ๋œ ํ‰๋ฌธ ํ…์ŠคํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•๋˜์—ˆ๋‹ค. BLOOM ๋ชจ๋ธ ๋“ฑ์˜ ํ•™์Šต์— ํ™œ์šฉ๋˜์—ˆ๋‹ค.

OSCAR-2301 ํ•œ๊ตญ์–ด ๋ฐ์ดํ„ฐ6:

  • ๋ฌธ์„œ ์ˆ˜: 15,147,698๊ฐœ
  • ๋‹จ์–ด ์ˆ˜: 3,435,866,935๊ฐœ (์•ฝ 34์–ต ๋‹จ์–ด)
  • ํฌ๊ธฐ: 38.1 GB

mC4 (Multilingual C4)

101๊ฐœ ์–ธ์–ด๋ฅผ ์ง€์›ํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ์ •์ œ ์ฝ”ํผ์Šค๋กœ, Common Crawl์˜ 71๊ฐœ ์›”๋ณ„ ํฌ๋กค์„ CLD3๋กœ ์–ธ์–ด ์‹๋ณ„ํ•˜์—ฌ ๊ตฌ์ถ•ํ–ˆ๋‹ค. ์ด 27TB์— ๋‹ฌํ•˜๋ฉฐ, mT5 ๋ชจ๋ธ์˜ ํ•™์Šต์— ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

mC4 ํŠน์ง•:

  • ์ด 6.6์–ต ํŽ˜์ด์ง€, 6.3์กฐ ํ† ํฐ
  • ํ•œ๊ตญ์–ด ํฌํ•จ (๊ตฌ์ฒด์  ํฌ๊ธฐ๋Š” ๊ณต๊ฐœ ํ†ต๊ณ„์—์„œ ํ™•์ธ ํ•„์š”)
  • ๋†’์€ ํ’ˆ์งˆ์˜ ์ •์ œ๋œ ํ…์ŠคํŠธ ์ œ๊ณต

ํ™œ์šฉ ์‚ฌ๋ก€

Common Crawl๊ณผ ํŒŒ์ƒ ๋ฐ์ดํ„ฐ์…‹์€ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋˜๊ณ  ์žˆ๋‹ค:

  • ์—ฐ๊ตฌ: 10,000๊ฐœ ์ด์ƒ์˜ ํ•™์ˆ  ๋…ผ๋ฌธ์—์„œ ์ธ์šฉ๋จ1
  • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ: ์›น ๊ณผํ•™, ์ธํ„ฐ๋„ท ๊ฒ€์—ด, ์–ธ์–ด ๋งคํ•‘, ํ”„๋ผ์ด๋ฒ„์‹œ ๋ถ„์„ ๋“ฑ
  • AI ๋ชจ๋ธ ํ›ˆ๋ จ: OpenAI์˜ GPT-3, Google์˜ mT5, BigScience์˜ BLOOM ๋“ฑ ์ฃผ์š” ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์— ์‚ฌ์šฉ๋จ3
  • ๋‹ค๊ตญ์–ด ๋ชจ๋ธ: mC4(mT5), OSCAR(BLOOM) ๋“ฑ์˜ ๋‹ค๊ตญ์–ด ์ฝ”ํผ์Šค๋ฅผ ํ†ตํ•ด ํ•œ๊ตญ์–ด๋ฅผ ํฌํ•จํ•œ ์ €์ž์› ์–ธ์–ด ์ง€์›

์ปค๋ฎค๋‹ˆํ‹ฐ ๋ฐ ์ง€์›

Common Crawl์€ ํ™œ๋ฐœํ•œ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ๋ฅผ ์ง€์›ํ•˜๋ฉฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฆฌ์†Œ์Šค๋ฅผ ์ œ๊ณตํ•œ๋‹ค:

  • ๋ฉ”์ผ๋ง ๋ฆฌ์ŠคํŠธ, Discord, Hugging Face ๋“ฑ ์ปค๋ฎค๋‹ˆํ‹ฐ ์ฑ„๋„
  • ํฌ๋กค ํ†ต๊ณ„ ๋ฐ ์›น ๊ทธ๋ž˜ํ”„ ๋ถ„์„ ๋„๊ตฌ
  • IBM์˜ GneissWeb ํ’ˆ์งˆ ๋ฐ ์นดํ…Œ๊ณ ๋ฆฌ ์ฃผ์„
  • AI ์—์ด์ „ํŠธ๋ฅผ ํ†ตํ•œ ๋ฐ์ดํ„ฐ ํƒ์ƒ‰ ์ง€์›
  • ์˜ตํŠธ์•„์›ƒ ๋ ˆ์ง€์ŠคํŠธ๋ฆฌ ์ œ๊ณต

๋˜ํ•œ SURFsara์™€ ํ˜‘๋ ฅํ•˜์—ฌ Norvig Web Data Science Award๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

์ฐธ๊ณ  ์ž๋ฃŒ

๊ณต์‹ ๋ฆฌ์†Œ์Šค

ํŒŒ์ƒ ๋ฐ์ดํ„ฐ์…‹

Footnotes

  1. Common Crawl ๊ณต์‹ ์›น์‚ฌ์ดํŠธ (https://commoncrawl.org) โ†ฉ โ†ฉ2

  2. Common Crawl Overview ํŽ˜์ด์ง€ (https://commoncrawl.org/overview) โ†ฉ

  3. Wikipedia - Common Crawl (https://en.wikipedia.org/wiki/Common_Crawl) โ†ฉ โ†ฉ2

  4. Wikipedia - Common Crawl (https://en.wikipedia.org/wiki/Common_Crawl) โ†ฉ

  5. Common Crawl ํ†ต๊ณ„ ํŽ˜์ด์ง€ (https://commoncrawl.github.io/cc-crawl-statistics/plots/languages) โ†ฉ

  6. OSCAR-2301 ๋ฐ์ดํ„ฐ์…‹ (https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) โ†ฉ