请教:批量添加线索,但是统计只有一条,怎么回事?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-7-16 08:43

沙发
MebiuW 初级会员 发表于 2018-7-14 18:54:51 | 只看该作者
在哪里加的,打数机?
举报 使用道具
板凳
ovna123 金牌会员 发表于 2018-7-14 18:59:27 | 只看该作者
举报 使用道具
地板
ovna123 金牌会员 发表于 2018-7-14 19:53:29 | 只看该作者
线索很长,是不是这个原因?
举报 使用道具
5#
Fuller 管理员 发表于 2018-7-15 09:46:29 | 只看该作者
ovna123 发表于 2018-7-14 19:53
线索很长,是不是这个原因?

比如,淘宝这样的网址,会特别长,如果每个网址的有区别的部分是在前面,在前面250个字符内,那么爬虫就会当成不同的网址进行处理。如果区别发生在250个以外,爬虫分不出来,这样就只能产生一条线索。

有两个解决方法:
1,利用网络上的短网址服务,把网址变成短网址,再交给爬虫去爬
2,调整一下网址参数,那些&key=value 这样的参数,把有区别的调到前面,通常调位置不影响网址的有效性
举报 使用道具
6#
ovna123 金牌会员 发表于 2018-7-16 08:43:19 | 只看该作者
好的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-15 03:38