spark初探踩坑集锦-创新互联
1、当我做transfomer的时候没有问题,可是一做到action操作就会报错。
以下是几个小问题:
distFile = sc.textFile(" hdfs://user/spark/test/201201.csv")
distFile.map(lambda s: len(s)).reduce(lambda a, b: a + b)
执行第一条没问题,执行第二条的时候就会报错:
Illegal character in scheme name at index 0: hdfs://user/spark/test/201201.csv
之后找了半天,发现写地址的时候没小心复制多了个空格,导致这个问题。
修改掉之后再一运行,又换了个错误:
大概是包括net什么的,具体没保留,查了一下,修改地址:
distFile = sc.textFile("hdfs://master:8020/user/spark/test/201201.csv")
之后又报了个错误,pyspark.sql.utils.IllegalArgumentException: 'java.net.UnknownHostException: user'
这之后查了一些资料也没有太有用的,突然我想为什么一定用绝对路径,相对路径试试。于是之后:
distFile = sc.textFile("hdfs://user/spark/test/201201.csv")
这次没有问题了,正常执行,之前的问题应该是master:8020这部分,这个可以修改一些不同的设置试试,应该也可以解决,另外编程过程中尽量不要用绝对路径,多用相对路径。
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
网站标题:spark初探踩坑集锦-创新互联
文章源于:http://pwwzsj.com/article/dcesig.html