使用官方使用手册提供的 DataEase 文档 没有问题,能正常爬取到文档内容,但使用语雀的文档地址无法爬取到文档内容。
测试地址:阿筑操作手册 · 阿筑
导入结果
可以将语雀文档导出后再上传到知识库。
感谢回复,意思就是,即便文档不需要登录,但整个网站的根路径需要登录,爬虫就爬取不到。明白这个Web根路径是什么意思了
选择器是css selector,按照规则你要在前面加一个点号 .
选择器语法要写正确。
我的也是语雀,根目录不需要登录,也是公开的文档,但是也不能爬取内容呢
语雀不支持的。
你好,支持wikli么?我自建了一个wiki,只能拉取首页,无法爬取。
wiki也是无法拉取的,需要鉴权的一类站点目前不支持拉取。
不是页面要不要认证的问题,是只支持静态网页,语雀这种在前端通过js生成页面的是不支持的。希望官方能改进支持前端渲染的网页
据我了解暂时没有计划,当前不会把精力花在文档抓取和预处理上。