ഉബുണ്ടു/ഡെബിയനിൽ അപ്പാച്ചെ സ്പാർക്ക് എങ്ങനെ ഇൻസ്റ്റാൾ ചെയ്യുകയും സജ്ജീകരിക്കുകയും ചെയ്യാം


വേഗത്തിലുള്ള കമ്പ്യൂട്ടേഷണൽ ഫലങ്ങൾ നൽകുന്നതിനായി സൃഷ്ടിക്കപ്പെട്ട ഒരു ഓപ്പൺ സോഴ്uസ് ഡിസ്ട്രിബ്യൂഡ് കമ്പ്യൂട്ടേഷണൽ ചട്ടക്കൂടാണ് അപ്പാച്ചെ സ്പാർക്ക്. ഇതൊരു ഇൻ-മെമ്മറി കമ്പ്യൂട്ടേഷണൽ എഞ്ചിനാണ്, അതായത് ഡാറ്റ മെമ്മറിയിൽ പ്രോസസ്സ് ചെയ്യും.

സ്ട്രീമിംഗ്, ഗ്രാഫ് പ്രോസസ്സിംഗ്, SQL, MLLib എന്നിവയ്uക്കായുള്ള വിവിധ API-കളെ സ്പാർക്ക് പിന്തുണയ്ക്കുന്നു. ഇത് Java, Python, Scala, R എന്നിവയും ഇഷ്ടപ്പെട്ട ഭാഷകളായി പിന്തുണയ്ക്കുന്നു. Hadoop ക്ലസ്റ്ററുകളിലാണ് സ്പാർക്ക് കൂടുതലും ഇൻസ്റ്റാൾ ചെയ്തിരിക്കുന്നത്, എന്നാൽ നിങ്ങൾക്ക് സ്റ്റാൻഡ് എലോൺ മോഡിൽ സ്പാർക്ക് ഇൻസ്റ്റാൾ ചെയ്യാനും കോൺഫിഗർ ചെയ്യാനും കഴിയും.

ഈ ലേഖനത്തിൽ, ഡെബിയൻ, ഉബുണ്ടു അധിഷ്ഠിത വിതരണങ്ങളിൽ അപ്പാച്ചെ സ്പാർക്ക് എങ്ങനെ ഇൻസ്റ്റാൾ ചെയ്യാമെന്ന് നമ്മൾ കാണും.

ഉബുണ്ടുവിൽ ജാവയും സ്കാലയും ഇൻസ്റ്റാൾ ചെയ്യുക

ഉബുണ്ടുവിൽ അപ്പാച്ചെ സ്പാർക്ക് ഇൻസ്റ്റാൾ ചെയ്യാൻ, നിങ്ങളുടെ മെഷീനിൽ ജാവയും സ്കാലയും ഇൻസ്റ്റാൾ ചെയ്തിരിക്കണം. മിക്ക ആധുനിക വിതരണങ്ങളും സ്ഥിരസ്ഥിതിയായി ഇൻസ്റ്റാൾ ചെയ്ത ജാവയിലാണ് വരുന്നത്, ഇനിപ്പറയുന്ന കമാൻഡ് ഉപയോഗിച്ച് നിങ്ങൾക്ക് ഇത് പരിശോധിക്കാനാകും.

$ java -version

ഔട്ട്uപുട്ട് ഇല്ലെങ്കിൽ, ഉബുണ്ടുവിൽ ജാവ എങ്ങനെ ഇൻസ്റ്റാൾ ചെയ്യാം എന്നതിനെക്കുറിച്ചുള്ള ഞങ്ങളുടെ ലേഖനം ഉപയോഗിച്ച് നിങ്ങൾക്ക് ജാവ ഇൻസ്റ്റാൾ ചെയ്യാം അല്ലെങ്കിൽ ഉബുണ്ടുവിലും ഡെബിയൻ അടിസ്ഥാനമാക്കിയുള്ള വിതരണങ്ങളിലും ജാവ ഇൻസ്റ്റാൾ ചെയ്യാൻ ഇനിപ്പറയുന്ന കമാൻഡുകൾ പ്രവർത്തിപ്പിക്കുക.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

അടുത്തതായി, സ്കാലയ്ക്കായി തിരയാനും ഇൻസ്റ്റാൾ ചെയ്യാനും ഇനിപ്പറയുന്ന കമാൻഡുകൾ പ്രവർത്തിപ്പിച്ച് നിങ്ങൾക്ക് apt ശേഖരത്തിൽ നിന്ന് Scala ഇൻസ്റ്റാൾ ചെയ്യാം.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

സ്കാലയുടെ ഇൻസ്റ്റാളേഷൻ പരിശോധിക്കുന്നതിന്, ഇനിപ്പറയുന്ന കമാൻഡ് പ്രവർത്തിപ്പിക്കുക.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

ഉബുണ്ടുവിൽ Apache Spark ഇൻസ്റ്റാൾ ചെയ്യുക

ഇപ്പോൾ ടെർമിനലിൽ ഫയൽ നേരിട്ട് ഡൌൺലോഡ് ചെയ്യാൻ ഔദ്യോഗിക wget കമാൻഡിലേക്ക് പോകുക.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

ഇപ്പോൾ നിങ്ങളുടെ ടെർമിനൽ തുറന്ന് നിങ്ങളുടെ ഡൗൺലോഡ് ചെയ്uത ഫയൽ എവിടെയാണ് സ്ഥാപിച്ചിരിക്കുന്നത് എന്നതിലേക്ക് മാറുക, അപ്പാച്ചെ സ്പാർക്ക് ടാർ ഫയൽ എക്uസ്uട്രാക്uറ്റുചെയ്യുന്നതിന് ഇനിപ്പറയുന്ന കമാൻഡ് പ്രവർത്തിപ്പിക്കുക.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

അവസാനം, എക്uസ്uട്രാക്uറ്റ് ചെയ്uത സ്uപാർക്ക് ഡയറക്uടറി /ഓപ്റ്റ് ഡയറക്uടറിയിലേക്ക് നീക്കുക.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

സ്പാർക്കിനായി എൻവയോൺമെന്റൽ വേരിയബിളുകൾ കോൺഫിഗർ ചെയ്യുക

ഇപ്പോൾ നിങ്ങൾ സ്പാർക്ക് ആരംഭിക്കുന്നതിന് മുമ്പ് നിങ്ങളുടെ .profile ഫയലിൽ കുറച്ച് പരിസ്ഥിതി വേരിയബിളുകൾ സജ്ജീകരിക്കേണ്ടതുണ്ട്.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

ഈ പുതിയ എൻവയോൺമെന്റ് വേരിയബിളുകൾ ഷെല്ലിനുള്ളിൽ എത്തിച്ചേരാവുന്നതാണെന്നും അപ്പാച്ചെ സ്പാർക്കിൽ ലഭ്യമാണെന്നും ഉറപ്പാക്കാൻ, സമീപകാല മാറ്റങ്ങൾ പ്രാബല്യത്തിൽ വരുത്തുന്നതിന് ഇനിപ്പറയുന്ന കമാൻഡ് പ്രവർത്തിപ്പിക്കേണ്ടത് നിർബന്ധമാണ്.

$ source ~/.profile

സേവനങ്ങൾ ആരംഭിക്കുന്നതിനും നിർത്തുന്നതിനുമുള്ള സ്പാർക്കുമായി ബന്ധപ്പെട്ട എല്ലാ ബൈനറികളും sbin ഫോൾഡറിന് കീഴിലാണ്.

$ ls -l /opt/spark

ഉബുണ്ടുവിൽ അപ്പാച്ചെ സ്പാർക്ക് ആരംഭിക്കുക

സ്പാർക്ക് മാസ്റ്റർ സേവനവും സ്ലേവ് സേവനവും ആരംഭിക്കുന്നതിന് ഇനിപ്പറയുന്ന കമാൻഡ് പ്രവർത്തിപ്പിക്കുക.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

സേവനം ആരംഭിച്ചുകഴിഞ്ഞാൽ ബ്രൗസറിലേക്ക് പോയി ഇനിപ്പറയുന്ന URL ആക്സസ് സ്പാർക്ക് പേജ് ടൈപ്പ് ചെയ്യുക. പേജിൽ നിന്ന്, എന്റെ യജമാനന്റെയും അടിമയുടെയും സേവനം ആരംഭിച്ചതായി നിങ്ങൾക്ക് കാണാം.

http://localhost:8080/
OR
http://127.0.0.1:8080

സ്പാർക്ക്-ഷെൽ കമാൻഡ് സമാരംഭിച്ചുകൊണ്ട് നിങ്ങൾക്ക് സ്പാർക്ക്-ഷെൽ നന്നായി പ്രവർത്തിക്കുന്നുണ്ടോയെന്ന് പരിശോധിക്കാനും കഴിയും.

$ spark-shell

ഈ ലേഖനത്തിന് അത്രയേയുള്ളൂ. രസകരമായ മറ്റൊരു ലേഖനവുമായി ഞങ്ങൾ നിങ്ങളെ ഉടൻ പിടികൂടും.