퍼플렉시티가 로봇.txt을 어떻게 따르나요?
난해도는 robots.txt를 존중합니다. 난해도는 robots.txt를 통해 난해도봇을 차단한 뉴스 발행인의 전체 또는 일부 텍스트 콘텐츠를 크롤링하지 않습니다. 일부 뉴스 웹 페이지는 robots.txt를 통해 차단되었더라도 여전히 색인에 추가될 수 있습니다. 이 경우 웹 사이트 도메인, 제목 및 페이지의 사실 요약만 검색 색인에 추가됩니다.
내 콘텐츠를 난해도에서 소스로 표시하도록 허용하면 AI 훈련에 사용됩니까?
우리의 크롤러인 난해도봇은 다른 검색 엔진이 하는 방식과 유사하게 페이지를 색인화합니다. 다른 AI 회사와는 달리 난해도는 기초 모델을 구축하지 않으므로 난해도봇은 LLM 사전 훈련용으로 내용을 스크래핑하지 않습니다.
난해도가 robots.txt를 존중한다면, 왜 난해도의 크롤러가 robots.txt를 존중하지 않는다는 내용을 온라인에서 본 것인가요?
이전에 난해도에 사용자가 답변 엔진 내에서 특정 URL을 요약하는 기능이 있었습니다. 이는 매우 드물게 적용되는 응용 프로그램이었지만 사용자가 파일 업로드 기능을 사용하지 않고 큰 양의 텍스트를 요약하는 방법을 제공하기 위해 설계되었습니다.
사용자가 특정 URL을 프롬프트하면 사용자는 해당 웹 페이지가 robots.txt 파일을 갖고 있더라도 사용자의 대리로 AI 에이전트를 배치하여 URL을 스크래핑했습니다. 사용자가 URL별로 초기화해야 하는 프로세스였습니다. 일부 사용자가 우리의 서비스 약관을 위반하는 방식으로 이 기능을 남용하는 것을 발견하여 사용자가 URL을 프롬프트해도 색인에 없는 URL의 스크래핑을 일시적으로 비활성화했습니다.
또한 난해도봇이 robots.txt를 존중하는 동안, 우리의 검색 색인 구축을 돕기 위해 사용하는 제3자 웹 크롤러는 때때로 robots.txt 파일을 준수하지 않았습니다. 이후에 우리는 공급 업체와 조정을 하여 난해도를 대신하여 크롤링할 때 robots.txt를 따르고 차단된 뉴스 발행인 사이트에서 전체 텍스트 콘텐츠를 절대로 접근하지 않도록 보장했습니다.