๊ฐ์
Common Crawl์ 2007๋ Gil Elbaz์ ์ํด ์ค๋ฆฝ๋ 501(c)(3) ๋น์๋ฆฌ ์กฐ์ง์ผ๋ก, ์น์ ํฌ๋กค๋งํ๊ณ ์์งํ ์์นด์ด๋ธ์ ๋ฐ์ดํฐ์ ์ ๋ฌด๋ฃ๋ก ๊ณต๊ฐํ๋ ํ๋ก์ ํธ๋ค.1 โ์คํ ์น ๋ฐ์ดํฐ์ ๋๊ท๋ชจ ์ถ์ถ, ๋ณํ, ๋ถ์์ ์ฐ๊ตฌ์๋ค์ด ์ ๊ทผํ ์ ์๋๋ก ๋ง๋ ๋คโ๋ ๋ฏธ์ ์ ๊ฐ์ง๊ณ ์๋ค.
์ญ์ฌ ๋ฐ ๊ท๋ชจ
Common Crawl์ 2008๋ ๋ถํฐ ์ ๊ธฐ์ ์ผ๋ก ์น ๋ฐ์ดํฐ๋ฅผ ์์งํด์์ผ๋ฉฐ, ๋๋ต ์ 1ํ ํฌ๋กค๋ง์ ์ํํ๋ค.2 15๋ ์ด์ ์ถ์ ๋ ๋ฐ์ดํฐ๋ 500์ต ๊ฐ ์ด์์ ์น ํ์ด์ง๋ฅผ ํฌํจํ๊ณ ์์ผ๋ฉฐ, ๋งค๋ฌ ์์ต ๊ฐ์ ์๋ก์ด ํ์ด์ง๊ฐ ์ถ๊ฐ๋๋ค. ์ ์ฒด ์ฝํผ์ค๋ ํํ๋ฐ์ดํธ ๊ท๋ชจ์ ๋ฌํ๋ค.
2012๋ ๋ถํฐ Amazon Web Services(AWS)์ ํธ์คํ ๋์ด ์์ผ๋ฉฐ, AWS Public Data Sets ํ๋ก๊ทธ๋จ์ ํตํด ๋ฌด๋ฃ๋ก ์ ๊ทผ ๊ฐ๋ฅํ๋ค.
๊ธฐ์ ๊ตฌ์กฐ
ํฌ๋กค๋ง ๋ฐฉ์
Common Crawl์ 2013๋
๋ถํฐ Apache Nutch ์นํฌ๋กค๋ฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค. ํฌ๋กค๋ง ์ robots.txt
์ nofollow
๋ฑ์ ์น ํฌ๋กค๋ง ์ ์ฑ
์ ์ค์ํ๋ค.3
๋ฐ์ดํฐ ํ์
์์ง๋ ๋ฐ์ดํฐ๋ ์ธ ๊ฐ์ง ์ฃผ์ ํ์์ผ๋ก ์ ๊ณต๋๋ค:
- WARC ํ์ผ: ํฌ๋กค๋ง ์์ ๋ฐ์ดํฐ๋ก, ํฌ๋กค๋ง ํ๋ก์ธ์ค๋ฅผ ์ง์ ๋งคํํ ํํ
- WAT ํ์ผ: WARC ํ์์ ์ ์ฅ๋ ๋ ์ฝ๋์ ์ค์ํ ๋ฉํ๋ฐ์ดํฐ ํฌํจ
- WET ํ์ผ: ์ถ์ถ๋ ์์ ํ ์คํธ๋ง ํฌํจ
2013๋
11์๋ถํฐ ๊ธฐ์กด .arc
ํ์์์ .warc
ํ์์ผ๋ก ์ ํํ๋ค.
๋ฐ์ดํฐ ์ ๊ทผ
Common Crawl ๋ฐ์ดํฐ๋ ๋๊ตฌ๋ ๋ฌด๋ฃ๋ก ์ ๊ทผํ ์ ์๋ค:
- AWS S3 ๋ฒํท (
s3://commoncrawl/
)์์ ์ ๊ณต - HTTP(S)๋ฅผ ํตํด ๋ค์ด๋ก๋ ๊ฐ๋ฅ
- AWS ํด๋ผ์ฐ๋ ๋ด์์ ์ง์ ๋ถ์ ๊ฐ๋ฅ
- URL ์ธ๋ฑ์ค๋ฅผ ํตํ ์ฝํผ์ค ๊ฒ์ ์ง์
์ธ์ด ๊ตฌ์ฑ
Common Crawl์ ๋ค์ํ ์ธ์ด๋ฅผ ์๋์ผ๋ก ์๋ณํ์ฌ ๋ถ๋ฅํ๋ค. ์ธ์ด๋ณ ๋ฐ์ดํฐ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ๋ค:
์ฃผ์ ์ธ์ด ๋น์จ (2023๋ 3์ ๊ธฐ์ค)
- ์์ด: 46%4
- ๋ ์ผ์ด, ๋ฌ์์์ด, ์ผ๋ณธ์ด, ํ๋์ค์ด, ์คํ์ธ์ด, ์ค๊ตญ์ด: ๊ฐ 6% ๋ฏธ๋ง
- ํ๊ตญ์ด: ์ฝ 0.75-0.78% (2025๋ ํฌ๋กค ์์นด์ด๋ธ ๊ธฐ์ค)5
ํ๊ตญ์ด ๋ฐ์ดํฐ
Common Crawl์ ํ๊ตญ์ด ๋ฐ์ดํฐ๋ ๋น๋ก ์์ด์ ๋นํด ์ ์ ๋น์ค์ด์ง๋ง, ๋ค๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ ์ฐ๊ตฌ์ ํ๊ตญ์ด ์ธ์ด ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ค์ํ ์ญํ ์ ํ๋ค.
2025๋ ํฌ๋กค ์์นด์ด๋ธ ํต๊ณ:
- CC-MAIN-2025-30: 0.7753%
- CC-MAIN-2025-33: 0.7565%
- CC-MAIN-2025-38: 0.7754%
ํ๊ตญ์ด๋ Common Crawl์ ์ค๊ฐ ๊ท๋ชจ ์ธ์ด๊ตฐ์ ์ํ๋ฉฐ, ์ผ๊ด๋๊ฒ ์ฝ 0.75-0.78%์ ๋น์จ์ ์ ์งํ๊ณ ์๋ค.
ํ์ ๋ฐ์ดํฐ์
Common Crawl์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ฌ๋ฌ ์ ์ ๋ ๋ค๊ตญ์ด ๋ฐ์ดํฐ์ ์ด ๊ฐ๋ฐ๋์๋ค:
OSCAR (Open Super-large Crawled Aggregated coRpus)
151๊ฐ ์ธ์ด๋ฅผ ์ง์ํ๋ ๋ค๊ตญ์ด ์ฝํผ์ค๋ก, Common Crawl์ WET ํ์ผ์์ ์ถ์ถ๋ ํ๋ฌธ ํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋์๋ค. BLOOM ๋ชจ๋ธ ๋ฑ์ ํ์ต์ ํ์ฉ๋์๋ค.
OSCAR-2301 ํ๊ตญ์ด ๋ฐ์ดํฐ6:
- ๋ฌธ์ ์: 15,147,698๊ฐ
- ๋จ์ด ์: 3,435,866,935๊ฐ (์ฝ 34์ต ๋จ์ด)
- ํฌ๊ธฐ: 38.1 GB
mC4 (Multilingual C4)
101๊ฐ ์ธ์ด๋ฅผ ์ง์ํ๋ ๋๊ท๋ชจ ์ ์ ์ฝํผ์ค๋ก, Common Crawl์ 71๊ฐ ์๋ณ ํฌ๋กค์ CLD3๋ก ์ธ์ด ์๋ณํ์ฌ ๊ตฌ์ถํ๋ค. ์ด 27TB์ ๋ฌํ๋ฉฐ, mT5 ๋ชจ๋ธ์ ํ์ต์ ์ฌ์ฉ๋์๋ค.
mC4 ํน์ง:
- ์ด 6.6์ต ํ์ด์ง, 6.3์กฐ ํ ํฐ
- ํ๊ตญ์ด ํฌํจ (๊ตฌ์ฒด์ ํฌ๊ธฐ๋ ๊ณต๊ฐ ํต๊ณ์์ ํ์ธ ํ์)
- ๋์ ํ์ง์ ์ ์ ๋ ํ ์คํธ ์ ๊ณต
ํ์ฉ ์ฌ๋ก
Common Crawl๊ณผ ํ์ ๋ฐ์ดํฐ์ ์ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋๊ณ ์๋ค:
- ์ฐ๊ตฌ: 10,000๊ฐ ์ด์์ ํ์ ๋ ผ๋ฌธ์์ ์ธ์ฉ๋จ1
- ์์ฐ์ด ์ฒ๋ฆฌ: ์น ๊ณผํ, ์ธํฐ๋ท ๊ฒ์ด, ์ธ์ด ๋งคํ, ํ๋ผ์ด๋ฒ์ ๋ถ์ ๋ฑ
- AI ๋ชจ๋ธ ํ๋ จ: OpenAI์ GPT-3, Google์ mT5, BigScience์ BLOOM ๋ฑ ์ฃผ์ ์ธ์ด ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋จ3
- ๋ค๊ตญ์ด ๋ชจ๋ธ: mC4(mT5), OSCAR(BLOOM) ๋ฑ์ ๋ค๊ตญ์ด ์ฝํผ์ค๋ฅผ ํตํด ํ๊ตญ์ด๋ฅผ ํฌํจํ ์ ์์ ์ธ์ด ์ง์
์ปค๋ฎค๋ํฐ ๋ฐ ์ง์
Common Crawl์ ํ๋ฐํ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ๋ฅผ ์ง์ํ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ ๋ฆฌ์์ค๋ฅผ ์ ๊ณตํ๋ค:
- ๋ฉ์ผ๋ง ๋ฆฌ์คํธ, Discord, Hugging Face ๋ฑ ์ปค๋ฎค๋ํฐ ์ฑ๋
- ํฌ๋กค ํต๊ณ ๋ฐ ์น ๊ทธ๋ํ ๋ถ์ ๋๊ตฌ
- IBM์ GneissWeb ํ์ง ๋ฐ ์นดํ ๊ณ ๋ฆฌ ์ฃผ์
- AI ์์ด์ ํธ๋ฅผ ํตํ ๋ฐ์ดํฐ ํ์ ์ง์
- ์ตํธ์์ ๋ ์ง์คํธ๋ฆฌ ์ ๊ณต
๋ํ SURFsara์ ํ๋ ฅํ์ฌ Norvig Web Data Science Award๋ฅผ ์ ๊ณตํ๋ค.
์ฐธ๊ณ ์๋ฃ
๊ณต์ ๋ฆฌ์์ค
- Common Crawl ๊ณต์ ์น์ฌ์ดํธ
- Common Crawl Overview
- Common Crawl ์ธ์ด ํต๊ณ
- Common Crawl on Wikipedia
- Common Crawl on AWS Open Data
ํ์ ๋ฐ์ดํฐ์
Footnotes
-
Common Crawl ๊ณต์ ์น์ฌ์ดํธ (https://commoncrawl.org) โฉ โฉ2
-
Common Crawl Overview ํ์ด์ง (https://commoncrawl.org/overview) โฉ
-
Wikipedia - Common Crawl (https://en.wikipedia.org/wiki/Common_Crawl) โฉ โฉ2
-
Wikipedia - Common Crawl (https://en.wikipedia.org/wiki/Common_Crawl) โฉ
-
Common Crawl ํต๊ณ ํ์ด์ง (https://commoncrawl.github.io/cc-crawl-statistics/plots/languages) โฉ
-
OSCAR-2301 ๋ฐ์ดํฐ์ (https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) โฉ