ഉബുണ്ടു/ഡെബിയനിൽ അപ്പാച്ചെ സ്പാർക്ക് എങ്ങനെ ഇൻസ്റ്റാൾ ചെയ്യുകയും സജ്ജീകരിക്കുകയും ചെയ്യാം
വേഗത്തിലുള്ള കമ്പ്യൂട്ടേഷണൽ ഫലങ്ങൾ നൽകുന്നതിനായി സൃഷ്ടിക്കപ്പെട്ട ഒരു ഓപ്പൺ സോഴ്uസ് ഡിസ്ട്രിബ്യൂഡ് കമ്പ്യൂട്ടേഷണൽ ചട്ടക്കൂടാണ് അപ്പാച്ചെ സ്പാർക്ക്. ഇതൊരു ഇൻ-മെമ്മറി കമ്പ്യൂട്ടേഷണൽ എഞ്ചിനാണ്, അതായത് ഡാറ്റ മെമ്മറിയിൽ പ്രോസസ്സ് ചെയ്യും.
സ്ട്രീമിംഗ്, ഗ്രാഫ് പ്രോസസ്സിംഗ്, SQL, MLLib എന്നിവയ്uക്കായുള്ള വിവിധ API-കളെ സ്പാർക്ക് പിന്തുണയ്ക്കുന്നു. ഇത് Java, Python, Scala, R എന്നിവയും ഇഷ്ടപ്പെട്ട ഭാഷകളായി പിന്തുണയ്ക്കുന്നു. Hadoop ക്ലസ്റ്ററുകളിലാണ് സ്പാർക്ക് കൂടുതലും ഇൻസ്റ്റാൾ ചെയ്തിരിക്കുന്നത്, എന്നാൽ നിങ്ങൾക്ക് സ്റ്റാൻഡ് എലോൺ മോഡിൽ സ്പാർക്ക് ഇൻസ്റ്റാൾ ചെയ്യാനും കോൺഫിഗർ ചെയ്യാനും കഴിയും.
ഈ ലേഖനത്തിൽ, ഡെബിയൻ, ഉബുണ്ടു അധിഷ്ഠിത വിതരണങ്ങളിൽ അപ്പാച്ചെ സ്പാർക്ക് എങ്ങനെ ഇൻസ്റ്റാൾ ചെയ്യാമെന്ന് നമ്മൾ കാണും.
ഉബുണ്ടുവിൽ ജാവയും സ്കാലയും ഇൻസ്റ്റാൾ ചെയ്യുക
ഉബുണ്ടുവിൽ അപ്പാച്ചെ സ്പാർക്ക് ഇൻസ്റ്റാൾ ചെയ്യാൻ, നിങ്ങളുടെ മെഷീനിൽ ജാവയും സ്കാലയും ഇൻസ്റ്റാൾ ചെയ്തിരിക്കണം. മിക്ക ആധുനിക വിതരണങ്ങളും സ്ഥിരസ്ഥിതിയായി ഇൻസ്റ്റാൾ ചെയ്ത ജാവയിലാണ് വരുന്നത്, ഇനിപ്പറയുന്ന കമാൻഡ് ഉപയോഗിച്ച് നിങ്ങൾക്ക് ഇത് പരിശോധിക്കാനാകും.
$ java -version
ഔട്ട്uപുട്ട് ഇല്ലെങ്കിൽ, ഉബുണ്ടുവിൽ ജാവ എങ്ങനെ ഇൻസ്റ്റാൾ ചെയ്യാം എന്നതിനെക്കുറിച്ചുള്ള ഞങ്ങളുടെ ലേഖനം ഉപയോഗിച്ച് നിങ്ങൾക്ക് ജാവ ഇൻസ്റ്റാൾ ചെയ്യാം അല്ലെങ്കിൽ ഉബുണ്ടുവിലും ഡെബിയൻ അടിസ്ഥാനമാക്കിയുള്ള വിതരണങ്ങളിലും ജാവ ഇൻസ്റ്റാൾ ചെയ്യാൻ ഇനിപ്പറയുന്ന കമാൻഡുകൾ പ്രവർത്തിപ്പിക്കുക.
$ sudo apt update $ sudo apt install default-jre $ java -version
അടുത്തതായി, സ്കാലയ്ക്കായി തിരയാനും ഇൻസ്റ്റാൾ ചെയ്യാനും ഇനിപ്പറയുന്ന കമാൻഡുകൾ പ്രവർത്തിപ്പിച്ച് നിങ്ങൾക്ക് apt ശേഖരത്തിൽ നിന്ന് Scala ഇൻസ്റ്റാൾ ചെയ്യാം.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package
സ്കാലയുടെ ഇൻസ്റ്റാളേഷൻ പരിശോധിക്കുന്നതിന്, ഇനിപ്പറയുന്ന കമാൻഡ് പ്രവർത്തിപ്പിക്കുക.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
ഉബുണ്ടുവിൽ Apache Spark ഇൻസ്റ്റാൾ ചെയ്യുക
ഇപ്പോൾ ടെർമിനലിൽ ഫയൽ നേരിട്ട് ഡൌൺലോഡ് ചെയ്യാൻ ഔദ്യോഗിക wget കമാൻഡിലേക്ക് പോകുക.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
ഇപ്പോൾ നിങ്ങളുടെ ടെർമിനൽ തുറന്ന് നിങ്ങളുടെ ഡൗൺലോഡ് ചെയ്uത ഫയൽ എവിടെയാണ് സ്ഥാപിച്ചിരിക്കുന്നത് എന്നതിലേക്ക് മാറുക, അപ്പാച്ചെ സ്പാർക്ക് ടാർ ഫയൽ എക്uസ്uട്രാക്uറ്റുചെയ്യുന്നതിന് ഇനിപ്പറയുന്ന കമാൻഡ് പ്രവർത്തിപ്പിക്കുക.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
അവസാനം, എക്uസ്uട്രാക്uറ്റ് ചെയ്uത സ്uപാർക്ക് ഡയറക്uടറി /ഓപ്റ്റ് ഡയറക്uടറിയിലേക്ക് നീക്കുക.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
സ്പാർക്കിനായി എൻവയോൺമെന്റൽ വേരിയബിളുകൾ കോൺഫിഗർ ചെയ്യുക
ഇപ്പോൾ നിങ്ങൾ സ്പാർക്ക് ആരംഭിക്കുന്നതിന് മുമ്പ് നിങ്ങളുടെ .profile ഫയലിൽ കുറച്ച് പരിസ്ഥിതി വേരിയബിളുകൾ സജ്ജീകരിക്കേണ്ടതുണ്ട്.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
ഈ പുതിയ എൻവയോൺമെന്റ് വേരിയബിളുകൾ ഷെല്ലിനുള്ളിൽ എത്തിച്ചേരാവുന്നതാണെന്നും അപ്പാച്ചെ സ്പാർക്കിൽ ലഭ്യമാണെന്നും ഉറപ്പാക്കാൻ, സമീപകാല മാറ്റങ്ങൾ പ്രാബല്യത്തിൽ വരുത്തുന്നതിന് ഇനിപ്പറയുന്ന കമാൻഡ് പ്രവർത്തിപ്പിക്കേണ്ടത് നിർബന്ധമാണ്.
$ source ~/.profile
സേവനങ്ങൾ ആരംഭിക്കുന്നതിനും നിർത്തുന്നതിനുമുള്ള സ്പാർക്കുമായി ബന്ധപ്പെട്ട എല്ലാ ബൈനറികളും sbin ഫോൾഡറിന് കീഴിലാണ്.
$ ls -l /opt/spark
ഉബുണ്ടുവിൽ അപ്പാച്ചെ സ്പാർക്ക് ആരംഭിക്കുക
സ്പാർക്ക് മാസ്റ്റർ സേവനവും സ്ലേവ് സേവനവും ആരംഭിക്കുന്നതിന് ഇനിപ്പറയുന്ന കമാൻഡ് പ്രവർത്തിപ്പിക്കുക.
$ start-master.sh $ start-workers.sh spark://localhost:7077
സേവനം ആരംഭിച്ചുകഴിഞ്ഞാൽ ബ്രൗസറിലേക്ക് പോയി ഇനിപ്പറയുന്ന URL ആക്സസ് സ്പാർക്ക് പേജ് ടൈപ്പ് ചെയ്യുക. പേജിൽ നിന്ന്, എന്റെ യജമാനന്റെയും അടിമയുടെയും സേവനം ആരംഭിച്ചതായി നിങ്ങൾക്ക് കാണാം.
http://localhost:8080/ OR http://127.0.0.1:8080
സ്പാർക്ക്-ഷെൽ കമാൻഡ് സമാരംഭിച്ചുകൊണ്ട് നിങ്ങൾക്ക് സ്പാർക്ക്-ഷെൽ നന്നായി പ്രവർത്തിക്കുന്നുണ്ടോയെന്ന് പരിശോധിക്കാനും കഴിയും.
$ spark-shell
ഈ ലേഖനത്തിന് അത്രയേയുള്ളൂ. രസകരമായ മറ്റൊരു ലേഖനവുമായി ഞങ്ങൾ നിങ്ങളെ ഉടൻ പിടികൂടും.