Home 오픈AI, 크롤러봇 GPTBot 출시해 웹사이트 정보 수집해 논란
뉴스

오픈AI, 크롤러봇 GPTBot 출시해 웹사이트 정보 수집해 논란

Robert Jang 암호화폐 콘텐츠 라이터 Author expertise

The Tech Report - 한국어 테크리포트를 신뢰할 수 있는 이유 Arrow down

1999년에 설립되어 긴 역사를 자랑하는 테크리포트는 최신 하드웨어 및 소프트웨어를 비롯해 블록체인과 관련된 최신 뉴스와 제품 리뷰를 제공합니다. 독자들의 신뢰를 최우선 가치로 여기며 편집의 독립성을 유지해 편향되지 않은 고품질의 콘텐츠를 작성하고 있습니다.

챗GPT를 개발한 회사 오픈AI가 최근 자체 웹 크롤러 GPTBot을 출시해 웹사이트 정보를 수집하기 시작했다. 회사는 웹사이트 소유자에게 크롤러 봇을 차단해 콘텐츠 수집을 막는 방법도 안내했다. 

오픈AI가 공개한 기술 문서에서 회사는 사용자 에이전트 토큰과 스트링을 활용해 크롤러를 탐지하는 방법을 설명했다. 문서는 서버의 robots.txt 파일에 토큰을 추가해 크롤러를 차단하는 방법도 설명한다. 

GPTBot은 무슨 역할을 하며, 어떻게 차단하나?

다른 웹 크롤러와 마찬가지로 GPTBot 역시 웹사이트를 돌아다니며 웹 페이지를 스캔하고 정보를 긁어온다. 하지만 다른 검색 엔진의 인덱싱 크롤러와 GPTBot이 다른 점은 정보 수집 목적에 있다. GPTBot은 데이터를 수집해 회사의 인공지능 모델 훈련에 사용하고자 한다. 이는 오픈AI가 차세대 인공지능 모델을 개발하기 위한 노력의 하나이며 GPT-5도 포함된다. 

“GPTBot이 당사의 웹사이트에 접근하도록 허용하면 AI 모델의 정확도를 높이고 전반적 역량을 개선하며 보안을 높이는 데 도움을 줄 수 있습니다.” -오픈AI

봇으로 수집한 웹페이지에서 필터링이 될 수도 있다고 밝히기도 했다. 즉 개인식별 정보나 유료 구독이 필요한 콘텐츠 등 오픈AI의 정책에 위반되는 자원은 필터링된다. 

물론 대부분의 사이트 소유주는 머신러닝이 그들의 콘텐츠를 수집해 인공지능 훈련에 사용하지 않기를 바란다. 오픈AI가 출판한 문서는 GPTBot을 차단하는 방법을 상세히 설명하며, 절차는 비교적 단순하다. 

웹크롤러가 웹사이트에 접근하는 것을 완전히 막으려면 토큰을 웹사이트의 robots.txt 파일에 추가하고 “Disallow: /” 명령을 사용하면 된다. 

웹사이트의 특정 페이지에만 접근하고 나머지는 차단하는 설정도 가능하다. 웹사이트 소유주는 ”Allow: /directory-1”와 “Disallow: /directory-2/” 명령을 사용한 후 필요에 따라 맞춤 설정하면 된다. 

인터넷에서 정보 수집하는 인공지능 회사에 대한 우려는 커지기만 하고..

웹 크롤러를 공개하며 오픈AI는 자사의 인공지능 모델이 인터넷의 공개 정보를 기반으로 훈련되었다는 것을 사실상 인정하게 되었다. 최근 여러 기관이 인터넷에서 자동화된 접근을 제한하려고 하는 노력이 증가하고 있는 것과 무관하지 않다. 

오픈AI 같은 회사는 인터넷에서 수집한 온갖 종류의 정보로 모델을 훈련하여 수백만 달러의 매출을 창출한다. 본인들의 콘텐츠를 사용해 AI회사가 얻은 수익을 돌려 받지 못하는 데 화가 난 사업 소유주들은 이제 접근을 차단해 대항하고 있다. 

최근 트위터는 비공개 신원 주체 4인을 고소해 웹사이트에서 정보를 수집해 인공지능 모델 훈련에 사용하는 것을 막았다. 

레딧 역시 API 이용약관을 수정해 플랫폼의 사용자가 무료로 제작한 콘텐츠를 효과적으로 수익화할 수 있게 되었다. 

최근 오픈AI는 저명한 작가 사라 실버맨(Sarah Silverman)으로부터 동의 없이 저작권 보호 재산을 사용했다고 고소당했다. 마이크로소프트, 구글과 그의 인공지능 연구 부서 딥마인드 등의 다른 회사도 비슷한 소송에 휘말렸다. 

하이로(Hyro)의 공동 창업자이자 CEO 이스라엘 크러쉬(Israel Krush)는 이에 관해 사이트 소유주가 수동적으로 GPTBot의 크롤링을 차단해야 한다는 점에 우려를 표했다. 하이로는 헬스케어 산업에서 사용되는 인공지능 비서를 개발한다. 

그는 이어서 그의 회사도 인터넷에서 정보를 수집하지만, 분명한 허가가 있을 경우에만 진행하고 있으며 개인 정보를 적절하게 관리하고 있다고 보장했다. 

어도비와 같은 회사는 정보에 “인공지능 훈련에 사용할 수 없음”을 표기해 법적으로 활용하는 방안을 제안했다. 앞으로 GPTBot이 디폴트로 웹사이트 수집하는 것을 막기 위해 법적 논의가 이루어질지는 지켜보아야 한다.

 

The Tech Report - Editorial Process테크리포트의 콘텐츠 작성 프로세스

테크리포트의 편집 정책은 정확하고 유용한 콘텐츠로 독자들에게 실질적인 가치를 제공하는 데 주력하고 있습니다. 모든 콘텐츠는 최신 기술 동향, 온라인 개인정보보호, 암호화폐, 소프트웨어를 아우르는 다양한 주제나 분야에 대한 지식을 갖춘 전문가와의 협력으로 완성되며, 발행 전 당사의 편집 정책에 따라 편집부의 리서치와 선별을 거칩니다. 테크리포트 편집부는 저널리즘 윤리 및 기준을 엄격하게 지켜 직접 콘텐츠를 작성하고 있습니다.

Robert Jang 암호화폐 콘텐츠 라이터

Robert Jang 암호화폐 콘텐츠 라이터

로버트 장은 암호화폐 전문 콘텐츠 라이터로 MIT 블록체인 교육 과정을 이수해 블록체인 작가로 활동하고 있습니다. 글로벌 스타트업과 자산운용사를 거치며 투자 관련 경험을 익힌 후 가상화폐 자산군으로 전문 분야를 옮겨 정확하고 이해하기 쉬운 글을 전달하고 있습니다. 

그는 테크리포트에서 암호화페 관련 글외에도 다양한 소프트웨어 및 테크 뉴스를 전하고 있으며, 인공지능을 포함하여 다양한 신기술에 큰 관심을 지니고 있습니다. 콘텐츠 라이터로서 그는 더 다양한 분야에 전문성을 갖추는 것을 목표로 삼고 있습니다.

최근 뉴스

아마존 프라임데이
소프트웨어 뉴스

美 상원, “아마존 프라임데이에 근로자 부상 증가했다”

크립토 뉴스

‘트럼프 트레이드’, 미 대선에 앞서 암호화폐에 잠재적 영향

11월 5일로 예정된 미 대선과 함께, ‘트럼프 트레이드’ (트럼프의 잠재적 승리로 이득을 얻는 투자 및 회수)가 돌아왔다. 예를 들어, 도널드 트럼프의 암살 기도 실패 이후 기관 및 개인 투자자들은 더 많은...

소프트웨어 뉴스

보안 연구원들, 북미, 유럽 및 아시아 사용자를 표적으로 했던 다크게이트 멀웨어 조명하다

삼바(Samba) 파일 쉐어를 활용해 다크게이트 서비스형 멀웨어 페이로드를 배포했던 단기간 동안 존재했던 한 멀웨어 캠페인이 올해 3~4월 사이에 유럽, 북미 및 아시아의 특정 지역을 강타했다. 팔로 알토 네트웍스 유닛 42의...

크립토 뉴스

페페 열풍 ··· ‘페페 언체인드’ 프리세일 400만달러 돌파

일론 머스크 트럼프 후원
크립토 뉴스

일론 머스크, 트럼프 대선 캠프에 매월 4,500만 달러 후원 약속

크립토 뉴스

마운트 곡스, 거래소로 60억 달러 상당의 비트코인 이체 – 암호화폐 시장의 반응은?

크립토 뉴스

전 SEC 변호사, 곧 열릴 회의에서 SEC가 리플과의 합의 관련 논의할 것이란 예상 묵살