CentOS 7-ൽ ഹഡൂപ്പ് സിംഗിൾ നോഡ് ക്ലസ്റ്റർ (സ്യൂഡോനോഡ്) എങ്ങനെ ഇൻസ്റ്റാൾ ചെയ്യാം

ബിഗ്ഡാറ്റ കൈകാര്യം ചെയ്യാൻ വ്യാപകമായി ഉപയോഗിക്കുന്ന ഒരു ഓപ്പൺ സോഴ്uസ് ചട്ടക്കൂടാണ് ഹഡൂപ്പ്. ബിഗ്ഡാറ്റ/ഡാറ്റ അനലിറ്റിക്സ് പ്രോജക്റ്റുകളിൽ ഭൂരിഭാഗവും ഹഡൂപ്പ് ഇക്കോ സിസ്റ്റത്തിന് മുകളിലാണ് നിർമ്മിച്ചിരിക്കുന്നത്. ഇതിൽ രണ്ട് പാളികൾ അടങ്ങിയിരിക്കുന്നു, ഒന്ന് ഡാറ്റ സംഭരിക്കുന്നതിനും മറ്റൊന്ന് ഡാറ്റ പ്രോസസ്സിംഗിനുള്ളതുമാണ്.

എച്ച്ഡിഎഫ്എസ് (ഹഡൂപ്പ് ഡിസ്ട്രിബ്യൂട്ടഡ് ഫയൽസിസ്റ്റം) എന്ന് വിളിക്കപ്പെടുന്ന സ്വന്തം ഫയൽസിസ്റ്റം സ്റ്റോറേജ് പരിപാലിക്കും, പ്രോസസ്സിംഗ് യആർഎൻ (ഇനി മറ്റൊരു റിസോഴ്സ് നെഗോഷ്യേറ്റർ) കൈകാര്യം ചെയ്യും. ഹഡൂപ്പ് ഇക്കോ സിസ്റ്റത്തിന്റെ ഡിഫോൾട്ട് പ്രോസസ്സിംഗ് എഞ്ചിനാണ് Mapreduce.

CentOS 7-ൽ എല്ലാ ഡെമണുകളും (JVMs) സിംഗിൾ നോഡ് ക്ലസ്റ്റർ പ്രവർത്തിപ്പിക്കുന്ന ഹഡൂപ്പിന്റെ സ്യൂഡോനോഡ് ഇൻസ്റ്റാളേഷൻ ഇൻസ്റ്റാളുചെയ്യുന്നതിനുള്ള പ്രക്രിയയെ ഈ ലേഖനം വിവരിക്കുന്നു.

ഇത് പ്രധാനമായും തുടക്കക്കാർക്ക് ഹഡൂപ്പ് പഠിക്കാനുള്ളതാണ്. തത്സമയം, ഹഡൂപ്പ് ഒരു മൾട്ടിനോഡ് ക്ലസ്റ്ററായി ഇൻസ്റ്റാൾ ചെയ്യും, അവിടെ ഡാറ്റ ബ്ലോക്കുകളായി സെർവറുകൾക്കിടയിൽ വിതരണം ചെയ്യുകയും ജോലി സമാന്തരമായി നടപ്പിലാക്കുകയും ചെയ്യും.

CentOS 7 സെർവറിന്റെ ഏറ്റവും കുറഞ്ഞ ഇൻസ്റ്റാളേഷൻ.
Java v1.8 റിലീസ്.
Hadoop 2.x സ്റ്റേബിൾ റിലീസ്.

ഈ പേജിൽ

CentOS 7-ൽ Java എങ്ങനെ ഇൻസ്റ്റാൾ ചെയ്യാം
CentOS 7-ൽ പാസ്uവേഡ് ഇല്ലാത്ത ലോഗിൻ സജ്ജീകരിക്കുക
CentOS 7-ൽ ഹഡൂപ്പ് സിംഗിൾ നോഡ് എങ്ങനെ ഇൻസ്റ്റാൾ ചെയ്യാം
CentOS 7-ൽ Hadoop എങ്ങനെ കോൺഫിഗർ ചെയ്യാം
HDFS ഫയൽ സിസ്റ്റം നെയിംനോഡ് വഴി ഫോർമാറ്റ് ചെയ്യുന്നു

1. ജാവയിൽ നിർമ്മിതമായ ഒരു ഇക്കോ സിസ്റ്റമാണ് ഹഡൂപ്പ്. ഹഡൂപ്പ് ഇൻസ്റ്റാൾ ചെയ്യുന്നതിന് ഞങ്ങളുടെ സിസ്റ്റത്തിൽ ജാവ നിർബന്ധമായും ഇൻസ്റ്റാൾ ചെയ്യണം.

# yum install java-1.8.0-openjdk

2. അടുത്തതായി, സിസ്റ്റത്തിൽ ജാവയുടെ ഇൻസ്റ്റാൾ ചെയ്ത പതിപ്പ് പരിശോധിക്കുക.

# java -version

ഞങ്ങളുടെ മെഷീനിൽ ssh കോൺഫിഗർ ചെയ്യേണ്ടതുണ്ട്, SSH ഉപയോഗിച്ച് ഹഡൂപ്പ് നോഡുകൾ നിയന്ത്രിക്കും. മാസ്റ്റർ നോഡ് അതിന്റെ സ്ലേവ് നോഡുകൾ ബന്ധിപ്പിക്കുന്നതിനും സ്റ്റാർട്ട്, സ്റ്റോപ്പ് പോലുള്ള പ്രവർത്തനം നടത്തുന്നതിനും SSH കണക്ഷൻ ഉപയോഗിക്കുന്നു.

പാസ്uവേഡ് ഇല്ലാതെ ssh ഉപയോഗിച്ച് സ്ലേവുകളുമായി മാസ്റ്റർക്ക് ആശയവിനിമയം നടത്താൻ കഴിയുന്ന തരത്തിൽ നമുക്ക് പാസ്uവേഡ്-ലെസ് ssh സജ്ജീകരിക്കേണ്ടതുണ്ട്. അല്ലെങ്കിൽ ഓരോ കണക്ഷൻ സ്ഥാപനത്തിനും, പാസ്വേഡ് നൽകേണ്ടതുണ്ട്.

ഈ ഒരൊറ്റ നോഡിൽ, മാസ്റ്റർ സേവനങ്ങളും (നാമനോഡ്, സെക്കൻഡറി നെയിംനോഡ് & റിസോഴ്സ് മാനേജർ) സ്ലേവ് സേവനങ്ങളും (ഡാറ്റനോഡ് & നോഡ്മാനേജർ) പ്രത്യേക ജെവിഎമ്മുകളായി പ്രവർത്തിക്കും. ഇത് സിംഗിൾ നോഡ് ആണെങ്കിലും, ആധികാരികത ഉറപ്പാക്കാതെ സ്ലേവിനെ ആശയവിനിമയം ചെയ്യാൻ മാസ്റ്ററെ മാറ്റുന്നതിന് നമുക്ക് പാസ്uവേഡ് കുറവുള്ള ssh ആവശ്യമാണ്.

3. സെർവറിൽ താഴെ പറയുന്ന കമാൻഡുകൾ ഉപയോഗിച്ച് പാസ്uവേഡ് ഇല്ലാത്ത SSH ലോഗിൻ സജ്ജീകരിക്കുക.

# ssh-keygen
# ssh-copy-id -i localhost

4. നിങ്ങൾ പാസ്uവേഡ് ഇല്ലാത്ത SSH ലോഗിൻ കോൺഫിഗർ ചെയ്uത ശേഷം, വീണ്ടും ലോഗിൻ ചെയ്യാൻ ശ്രമിക്കുക, ഒരു പാസ്uവേഡ് ഇല്ലാതെ നിങ്ങളെ ബന്ധിപ്പിക്കും.

# ssh localhost

5. അപ്പാച്ചെ ഹഡൂപ്പ് വെബ്uസൈറ്റിലേക്ക് പോയി ഇനിപ്പറയുന്ന wget കമാൻഡ് ഉപയോഗിച്ച് ഹഡൂപ്പിന്റെ സ്ഥിരമായ റിലീസ് ഡൗൺലോഡ് ചെയ്യുക.

# wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
# tar xvpzf hadoop-2.10.1.tar.gz

6. അടുത്തതായി, കാണിച്ചിരിക്കുന്നതുപോലെ ~/.bashrc ഫയലിൽ Hadoop എൻവയോൺമെന്റ് വേരിയബിളുകൾ ചേർക്കുക.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. ഫയലിന്റെ ~/.bashrc-ലേക്ക് എൻവയോൺമെന്റ് വേരിയബിളുകൾ ചേർത്ത ശേഷം, ഫയൽ ഉറവിടം കണ്ടെത്തുകയും ഇനിപ്പറയുന്ന കമാൻഡുകൾ പ്രവർത്തിപ്പിച്ച് Hadoop പരിശോധിക്കുകയും ചെയ്യുക.

# source ~/.bashrc
# cd $HADOOP_PREFIX
# bin/hadoop version

നിങ്ങളുടെ മെഷീനിലേക്ക് യോജിപ്പിക്കുന്നതിന് ഞങ്ങൾ ഹഡൂപ്പ് കോൺഫിഗറേഷൻ ഫയലുകൾ താഴെ കോൺഫിഗർ ചെയ്യേണ്ടതുണ്ട്. ഹഡൂപ്പിൽ, ഓരോ സേവനത്തിനും അതിന്റേതായ പോർട്ട് നമ്പറും ഡാറ്റ സംഭരിക്കുന്നതിന് അതിന്റേതായ ഡയറക്ടറിയും ഉണ്ട്.

Hadoop കോൺഫിഗറേഷൻ ഫയലുകൾ – core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml

8. ആദ്യം, കാണിച്ചിരിക്കുന്നത് പോലെ hadoop-env.sh ഫയലിലെ JAVA_HOME ഉം Hadoop പാത്തും അപ്ഡേറ്റ് ചെയ്യേണ്ടതുണ്ട്.

# cd $HADOOP_PREFIX/etc/hadoop
# vi hadoop-env.sh

ഫയലിന്റെ തുടക്കത്തിൽ ഇനിപ്പറയുന്ന വരി നൽകുക.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. അടുത്തതായി, core-site.xml ഫയൽ പരിഷ്ക്കരിക്കുക.

# cd $HADOOP_PREFIX/etc/hadoop
# vi core-site.xml

കാണിച്ചിരിക്കുന്നതുപോലെ <configuration> ടാഗുകൾക്കിടയിൽ താഴെ ഒട്ടിക്കുക.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. tecmint ഉപയോക്തൃ ഹോം ഡയറക്uടറിക്ക് കീഴിൽ താഴെയുള്ള ഡയറക്uടറികൾ സൃഷ്uടിക്കുക, അത് NN, DN സംഭരണത്തിനായി ഉപയോഗിക്കും.

# mkdir -p /home/tecmint/hdata/
# mkdir -p /home/tecmint/hdata/data
# mkdir -p /home/tecmint/hdata/name

10. അടുത്തതായി, hdfs-site.xml ഫയൽ പരിഷ്ക്കരിക്കുക.

# cd $HADOOP_PREFIX/etc/hadoop
# vi hdfs-site.xml

കാണിച്ചിരിക്കുന്നതുപോലെ <configuration> ടാഗുകൾക്കിടയിൽ താഴെ ഒട്ടിക്കുക.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. വീണ്ടും, mapred-site.xml ഫയൽ പരിഷ്ക്കരിക്കുക.

# cd $HADOOP_PREFIX/etc/hadoop
# cp mapred-site.xml.template mapred-site.xml
# vi mapred-site.xml

കാണിച്ചിരിക്കുന്നതുപോലെ <configuration> ടാഗുകൾക്കിടയിൽ താഴെ ഒട്ടിക്കുക.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. അവസാനമായി, yarn-site.xml ഫയൽ പരിഷ്ക്കരിക്കുക.

# cd $HADOOP_PREFIX/etc/hadoop
# vi yarn-site.xml

കാണിച്ചിരിക്കുന്നതുപോലെ <configuration> ടാഗുകൾക്കിടയിൽ താഴെ ഒട്ടിക്കുക.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

13. ക്ലസ്റ്റർ ആരംഭിക്കുന്നതിന് മുമ്പ്, അത് ഇൻസ്റ്റാൾ ചെയ്തിട്ടുള്ള നമ്മുടെ പ്രാദേശിക സിസ്റ്റത്തിൽ ഹഡൂപ്പ് എൻഎൻ ഫോർമാറ്റ് ചെയ്യേണ്ടതുണ്ട്. സാധാരണയായി, ആദ്യമായി ക്ലസ്റ്റർ ആരംഭിക്കുന്നതിന് മുമ്പ് പ്രാരംഭ ഘട്ടത്തിൽ ഇത് ചെയ്യപ്പെടും.

NN ഫോർമാറ്റ് ചെയ്യുന്നത് NN മെറ്റാസ്റ്റോറിലെ ഡാറ്റാ നഷ്uടത്തിന് കാരണമാകും, അതിനാൽ നമ്മൾ കൂടുതൽ ജാഗ്രത പാലിക്കണം, ക്ലസ്റ്റർ പ്രവർത്തിക്കുന്ന സമയത്ത് NN മനഃപൂർവ്വം ആവശ്യമില്ലെങ്കിൽ ഫോർമാറ്റ് ചെയ്യരുത്.

# cd $HADOOP_PREFIX
# bin/hadoop namenode -format

14. നെയിംനോഡ് ഡെമണും ഡാറ്റാനോഡ് ഡെമണും ആരംഭിക്കുക: (പോർട്ട് 50070).

# cd $HADOOP_PREFIX
# sbin/start-dfs.sh

15. റിസോഴ്സ് മാനേജർ ഡെമണും നോഡ്മാനേജർ ഡെമണും ആരംഭിക്കുക: (പോർട്ട് 8088).

# sbin/start-yarn.sh

16. എല്ലാ സേവനങ്ങളും നിർത്താൻ.

# sbin/stop-dfs.sh
# sbin/stop-dfs.sh

സംഗ്രഹം
ഈ ലേഖനത്തിൽ, ഹഡൂപ്പ് സ്യൂഡോനോഡ് (സിംഗിൾ നോഡ്) ക്ലസ്റ്റർ സജ്ജീകരിക്കുന്നതിനുള്ള ഘട്ടം ഘട്ടമായുള്ള പ്രക്രിയയിലൂടെ ഞങ്ങൾ കടന്നുപോയി. നിങ്ങൾക്ക് ലിനക്സിനെ കുറിച്ച് അടിസ്ഥാന അറിവ് ഉണ്ടെങ്കിൽ, ഈ ഘട്ടങ്ങൾ പാലിക്കുകയാണെങ്കിൽ, ക്ലസ്റ്റർ 40 മിനിറ്റിനുള്ളിൽ യുപി ആകും.

തുടക്കക്കാർക്ക് ഹഡൂപ്പ് പഠിക്കാനും പരിശീലിക്കാനും ഇത് വളരെ ഉപയോഗപ്രദമാകും അല്ലെങ്കിൽ ഹഡൂപ്പിന്റെ ഈ വാനില പതിപ്പ് വികസന ആവശ്യങ്ങൾക്കായി ഉപയോഗിക്കാം. ഞങ്ങൾക്ക് ഒരു തത്സമയ ക്ലസ്റ്റർ വേണമെങ്കിൽ, ഒന്നുകിൽ ഞങ്ങൾക്ക് കുറഞ്ഞത് 3 ഫിസിക്കൽ സെർവറുകൾ ആവശ്യമാണ് അല്ലെങ്കിൽ ഒന്നിലധികം സെർവറുകൾ ഉള്ള ക്ലൗഡ് പ്രൊവിഷൻ ചെയ്യണം.