irpas技术客

pycharm运行spark程序_sa726663676_pycharm spark

irpas 3924

使用pycharm运行pyspark有两种方法:

临时运行方法:一是在运行程序中加载一些环境变量信息

永久配置方法:二是在pycharm软件中配置一些环境变量信息

?

1.Pycharm运行spark程序方法1:每次都需在程序中配置相关路径

本人ubuntu相关软件安装的路径:

spark:/usr/local/spark

java_jdk:/usr/lib/jvm/jdk1.8.0_162

?

?

新建一个py文件输入以下内容:

import os import sys

# Path for spark source folder os.environ['SPARK_HOME'] = "/usr/local/spark"? ?#根据自己的spark路径配置os.environ['JAVA_HOME']='/usr/lib/jvm/jdk1.8.0_162'? ? #根据自己的jdk路径配置 ,不加这句话会导致以下错误

?

# You might need to enter your local IP? ?#不知道什么时候有用? # os.environ['SPARK_LOCAL_IP']="192.168.2.138"

# Path for pyspark and py4j? ?#加载pyspark和py4j这两个文件sys.path.append("/usr/local/spark/python") sys.path.append("/usr/local/spark/python/lib/py4j-0.10.7-src.zip")

try: ? ? from pyspark import SparkContext ? ? from pyspark import SparkConf

? ? print ("Successfully imported Spark Modules") except ImportError as e: ? ? print ("Can not import Spark Modules", e) ? ? sys.exit(1)

sc = SparkContext('local') words = sc.parallelize(["scala", "java", "hadoop", "spark", "akka"]) print(words.count())

以上代码在每一个单独的py程序都需要添加。

?

成功运行便会出现以下画面:

?

解决pycharm中spark无法自动补全问题:https://blog.csdn.net/sa726663676/article/details/113540095

?

?

2.Pycharm运行spark程序方法2:在IDE中仅一次配置相关路径

未实验

?

以上内容部分参考自:https://blog.csdn.net/cds86333774/article/details/51264073

?

?

?


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #pycharm #spark #osimport #Sys #path #for